Biblioteques, arxius i museus segueixen diferents criteris de normalització de vocabularis i metadades, però és necessari acollir-se a normes estandarditzades per permetre la consulta centralitzada de tots els fons. Vegem a continuació com es normalitza i què ens aporta el Linked Open Data (dades enllaçades).

De quantes maneres diferents tenim escrites les nostres dades?

Pablo PicassoPicasso, Pablo, 1881-1973Pablo Picasso (Pablo Ruiz Picasso)Pablo Picasso Spanish, 1881-1973Picasso, Pablo (Spanish painter, sculptor, and printmaker, 1881-1973)

Normalització significa “crear, establir o acollir-se a normes”. Podem normalitzar noms d’autors, descriptors geogràfics, tipològics o temàtics, etc.

Com ho podem aconseguir? Linked Open Data

En primer lloc, cal normalitzar les dades tenint en compte obres de referència com per exemple:

Per altra banda, es pot anar més enllà i adaptar les nostres dades al Linked Open Data. Per aconseguir-ho, vinculem un terme amb un identificador únic que en descriu el significat concret.
Amb això aconseguim crear les nostres dades indicant que “Pablo Picasso” sigui inequívocament el pintor, o que el terme “taula” correspongui a l’objecte de quatre potes i superfície llisa, etc.

Què és el Linked Open Data?

El Linked Open Data (dades enllaçades) descriu un mètode de publicació de dades estructurades perquè puguin ser interconnectades entre elles i resultin més útils. Consisteix en:

  • Identificadors únics: ja no podem confondre de qui o què estem parlant.
  • Dades online: consulta en qualsevol moment i lloc.
  • Llenguatge estàndard (ex: RDF) / interoperabilitat: podem cercar totes les dades des d’un mateix lloc i sincronitzar les dades entre aplicacions.
  • Dades enllaçades entre elles: permet navegar entre termes i anar filtrant a mesura que consultem dades

A mesura que les obres de referència s’han posicionat, ens han permès:

  • Multilingüisme: obtenim els termes traduïts i validats a altres idiomes.
  • Identificar alternatives terminològiques: obtenim variants dels termes en el nostre idioma i altres.
  • Coordenades geogràfiques: identifiquem on es troba una ubicació i la podem pintar en un mapa
  • I altres dades complementàries segons la tipologia de terme.

I quin esforç suposa?

Cal que normalitzem aquells termes que ens fan únics. Recordem el principi de Pareto: encara que la normalització afecti a un 20% dels termes, generalment això afectarà al 80% de les nostres dades.

Com? Veiem-ne un exemple pràctic

El procés de normalització consisteix en consultar les fonts de referència i enriquir les teves dades a partir d’aquestes. Per exemple, en el cas del terme taula (table) consultarem el Tesaurus d’Art i Arquitectura de Getty Institute.

D’entre tots els termes proposats, escollirem el que descriu millor el nostre objecte taula i n’aprofitarem tota la informació complementària:

  • Nom preferent en anglès: tables (support furniture)
  • Nom preferent en castellà: mesa (mueble de soporte)
  • Identificador: http://vocab.getty.edu/page/aat/300039337
  • Descripció en castellà: Artículos de mobiliario que consisten en una cubierta plana parecida a una tabla apoyadas en una o más patas o soportes.
  • Terme pare en castellà: muebles de soporte
  • Faceta: objecte
  • ...

Per facilitar aquesta feina, de manera que es pugui fer semi-automàticament, des de Coeli hem creat Poligraf, una eina de suport a la normalització oberta online.