Da Open Data a Linked Open Data: oltre l’apertura, verso la fruibilità e la condivisione

Durata del corso: 40 ore

Coordinatore didattico: Prof. Andrea D’Ambrogio, professore Associato di Ingegneria del Software, dipartimento Ingegneria dell’Impresa Università di Roma “Tor Vergata”

Docente: Ing. Armando Stellato

 

Programma dettagliato del corso

Argomenti principali trattati (da adeguare/integrare in base al background dei percipienti il corso, per poter fare un assessment dei contenuti che sia adeguato alle loro capacità pregresse e alle loro necessità e aspettative):

  1. Cosa significa dato aperto
  2. I 5 livelli di qualità dei dati aperti fissati dalla W3C
  3. Licenze sui dati: licenze libere/aperte
  4. Dati, metadati, vocabolari dei dati, ontologie, tesauri: qualche spiegazione e un po’ di terminologia
  5. Il valore economico dei dati
  6. Linked Open Data e il Web
    • Modello dei dati: RDF
    • Modelli di rappresentazione della conoscenza: OWL, SKOS, SKOS-XL
    • Alcuni esempi di vocabolari RDF:
    • FOAF: Friend of a Friend
    • WGS84: un microvocabolario per la geolocalizzazione
    • Dublin Core: metadati o vocabolario general purpose?
    • Multilingualità e diffusione: dalla rdfs:Label, passando per le proprietà terminologiche di SKOS(XL) sino ai modelli di lessico avanzato e di interfacce ontolinguistiche di OntoLex.
    • SPARQL: un linguaggio di interrogazione dei dati RDF & assieme un protocollo di accesso ai dati aperti
    • Metadati:
    • VoID: vocabulary of Interlinked Datasets
    • VOAF: Vocabulary of a Friend
    • LIME: Linguistic Metadata
    • LOD Cloud: la “nuvola” dei Linked Open Data nel Web, un bootstrap del Semantic Web, ma anche una contraddizione in essere
    • Dataset repositories: datahub.io
  7. Tecnologie per i Linked Open Data
    • Triple store: un “DBMS” per triple RDF
    • I triple store più noti:
    • Sesame2 native&in-memory triple stores
    • Jena SDB/TDB
    • GraphDB
    • Virtuoso
    • AllegroGraph
    • RDF API & Middleware: modalità di accesso e interrogazione di dataset RDF. Diversità di approcci e tecnologie
    • RDF Middleware, i più noti:
      • Sesame
      • Jena
    • Linked Data Platforms
    • Apache Clerezza
    • Apache Marmotta
    • Ontology Editors, Thesauri Editors, differenti paradigmi e dimensioni d’uso
    • Protege
    • Web Protege
    • TopBraid Composer
    • Semantic Turkey
    • Pool Party
    • VocBench
  8. Triplificazione di sorgenti legacy e/o non strutturate: acquisizione, analisi, “pulizia”
    • Tipologie di sorgenti informative
    • problematiche legate alla triplificazione dei dati
    • approcci e soluzioni
    • tecnologie disponibili
  9. Pubblicazione dei dati aperti: standard & best practices
  10. Esperienze di dati aperti nella pubblica amministrazione e in grandi organizzazioni
    • FAO: il tesauro Agrovoc e la “migrazione open” in data.fao.org
    • Quando aprire i dati è solo l’inizio: l’iniziativa GACS
    • Senato della Repubblica Italiana: il tesauro Teseo e i dati su disegni di legge, votazioni, commissioni etc.. in dati.senati.it
    • Ufficio della Documentazione dell’Unione Europea: EuroVoc, il suo valore intrinseco, e il suo ruolo centrale per le risorse dati dei paesi della UE.
    • …altre possibili da definire