Biblioteques, arxius i museus segueixen diferents criteris de normalització de vocabularis i metadades, però és necessari acollir-se a normes estandarditzades per permetre la consulta centralitzada de tots els fons. Vegem a continuació com es normalitza i què ens aporta el Linked Open Data (dades enllaçades).
De quantes maneres diferents tenim escrites les nostres dades?
Pablo PicassoPicasso, Pablo, 1881-1973Pablo Picasso (Pablo Ruiz Picasso)Pablo Picasso Spanish, 1881-1973Picasso, Pablo (Spanish painter, sculptor, and printmaker, 1881-1973)
Normalització significa “crear, establir o acollir-se a normes”. Podem normalitzar noms d’autors, descriptors geogràfics, tipològics o temàtics, etc.
Com ho podem aconseguir? Linked Open Data
En primer lloc, cal normalitzar les dades tenint en compte obres de referència com per exemple:
- Tesaurus d’Art i Arquitectura del Getty Institute per a noms d’objecte, tècniques i materials
- Viaf per autoritats
- Geonames per noms geogràfics
- A l’àmbit espanyol els Tesaurus del patrimoni cultural d’Espanya
Per altra banda, es pot anar més enllà i adaptar les nostres dades al Linked Open Data. Per aconseguir-ho, vinculem un terme amb un identificador únic que en descriu el significat concret.
Amb això aconseguim crear les nostres dades indicant que “Pablo Picasso” sigui inequívocament el pintor, o que el terme “taula” correspongui a l’objecte de quatre potes i superfície llisa, etc.
Què és el Linked Open Data?
El Linked Open Data (dades enllaçades) descriu un mètode de publicació de dades estructurades perquè puguin ser interconnectades entre elles i resultin més útils. Consisteix en:
- Identificadors únics: ja no podem confondre de qui o què estem parlant.
- Dades online: consulta en qualsevol moment i lloc.
- Llenguatge estàndard (ex: RDF) / interoperabilitat: podem cercar totes les dades des d’un mateix lloc i sincronitzar les dades entre aplicacions.
- Dades enllaçades entre elles: permet navegar entre termes i anar filtrant a mesura que consultem dades
A mesura que les obres de referència s’han posicionat, ens han permès:
- Multilingüisme: obtenim els termes traduïts i validats a altres idiomes.
- Identificar alternatives terminològiques: obtenim variants dels termes en el nostre idioma i altres.
- Coordenades geogràfiques: identifiquem on es troba una ubicació i la podem pintar en un mapa
- I altres dades complementàries segons la tipologia de terme.
I quin esforç suposa?
Cal que normalitzem aquells termes que ens fan únics. Recordem el principi de Pareto: encara que la normalització afecti a un 20% dels termes, generalment això afectarà al 80% de les nostres dades.
Com? Veiem-ne un exemple pràctic
El procés de normalització consisteix en consultar les fonts de referència i enriquir les teves dades a partir d’aquestes. Per exemple, en el cas del terme taula (table) consultarem el Tesaurus d’Art i Arquitectura de Getty Institute.
D’entre tots els termes proposats, escollirem el que descriu millor el nostre objecte taula i n’aprofitarem tota la informació complementària:
- Nom preferent en anglès: tables (support furniture)
- Nom preferent en castellà: mesa (mueble de soporte)
- Identificador: http://vocab.getty.edu/page/aat/300039337
- Descripció en castellà: Artículos de mobiliario que consisten en una cubierta plana parecida a una tabla apoyadas en una o más patas o soportes.
- Terme pare en castellà: muebles de soporte
- Faceta: objecte
- ...
Per facilitar aquesta feina, de manera que es pugui fer semi-automàticament, des de Coeli hem creat Poligraf, una eina de suport a la normalització oberta online.