En aquest segon post seguim amb la presentació: Gestió i difusió de col·leccions de museus: oportunitats per l’enriquiment i la interoperabilitat de les dades.
Continuem parlant sobre la integració de dades, concretament sobre la normalització de dades.
A l’anterior post vam introduir el tema de la interoperabilitat i els seus 3 nivells:
- Interoperabilitat organitzacional
- Interoperabilitat tècnica
- Esquemes de metadades
- Vocabularis de valors -> aquí és on continuem ara
Vocabularis de valors
Entrem en la qüestió dels vocabularis de valors, les llistes d’encapçalaments, els tesaurus, taxonomies, etc.
De quantes maneres diferents tenim escrit un mateix nom entre totes les nostres bases de dades?
Pablo PicassoPicasso, Pablo, 1881-1973Pablo Picasso (Pablo Ruiz Picasso)Pablo Picasso Spanish, 1881-1973Picasso, Pablo (Spanish painter, sculptor, and printmaker, 1881-1973)
Això, permeteu-me que ho digui, ni tan sols s’aconsegueix sempre en els catàlegs bibliogràfics col·lectius, que són el paradigma de la normalització i de l’èxit de la integració basada en estàndards!
En el cas que ens ocupa, ja no parlem de les inconsistències de la normalització de les dades, o diferències idiomàtiques, de vegades només s’ha de tenir en compte la diversitat de criteris de normalització que prescriuen cada una de les tradicions documentals en funció de les necessitats d’explotació de les dades.
Els estàndards de biblioteques, arxius o museus no sempre prescriuen (o es senten còmodes amb) la mateixa sintaxis per escriure els noms d’autors, els descriptors geogràfics, tipològics o temàtics, etc.
Unificar aquestes tradicions a les bases de dades d’origen no sempre és factible, però resulta imprescindible per una veritable integració de les dades, i permetre una consulta unificada dels fons.
Com aconseguir-ho? Vegem què és Linked Data
Amb la interrupció i l’avanç del Linked Open Data s’han consolidat obres de referència internacional en la normalització de dades segons el seu àmbit d’actuació.

Aquestes obres de referència ens proporcionen identificadors que ens són útils per garantir la interoperabilitat externa, a la vegada que poden ser útils també per facilitar la interoperabilitat interna, dins de la institució, al marge de les particularitats de cada unitat.
En aquest cas, jo, nosaltres, tenim a disposició un ampli ventall de fonts de referència que ens permeten fer-nos entendre per tot el món.
- Tesaurus d’Art i Arquitectura del Getty Institute
- Viaf per autoritats
- Geonames per noms geogràfics
- En l’àmbit espanyol els Tesaurus del patrimoni cultural d’Espanya

Poc a poc aquestes referències s’han posicionat com a font normalitzada i fiable de les taxonomies o vocabularis.
Alguns amb peculiaritats que faciliten la seva expansió com pot ser:
- Multilingüisme
- Coordenades geogràfiques
- Formes variants dels noms
- Dades complementàries
Però moltes vegades, quan plantegem projectes de normalització per adaptar les dades d’una institució a estàndards, ens trobem amb certes reticències:
Però que ens diu la realitat?
Normalització
A les següents gràfiques podem veure:
- Institucions: 90
- Total de registres: 690.000
- Descriptors únics: 29.000

Les dades ens mostren que, per norma general, el 90% de registres de les col·leccions utilitzen tan sols un 7% dels descriptors existents.

Per altra banda, el 86% dels descriptors els utilitza una sola institució i representa només el 23% dels registres. En canvi, l’1% dels descriptors que són utilitzats per més de 20 institucions, representen casi el 50% de tots els registres.
Ens quedem amb que, en la majoria dels casos, es compleix de llarg la regla de Pareto que diu que un 80% dels efectes són conseqüència del 20% de les accions, que traduït a aquest cas seria:
Encara que la normalització afecti tan sols a un 20% dels termes, per norma general aquests s’utilitzen en un 80% dels objectes.
Per tant:

Prioritzem els esforços, dedicant el 20% als aspectes més generals on podem aprofitar la cooperació i compartició dels recursos i dediquem el 80% a millorar aquells aspectes que ens fan particulars o únics. Que posin en valor la nostra col·lecció.
Poligraf
Des de Coeli treballem d’acord a aquestes necessitats. Com a complement hem creat Poligraf: un joc d’eines de suport a la normalització, servei obert i a disposició de tot el món.
Poligraf és un sistema semi-automàtic que permet vincular i enriquir els propis descriptors amb algunes de les fonts de referència internacionals.
Hem posat aquests serveis en obert, gratuïts i a disposició de tot el món.
Poligraf està compost pels següents serveis:

Aquestes eines no fan miracles, només ens ajuden. En base a la nostra experiència hem creat un conjunt de regles i una base de coneixement que ens permet proposar valors possibles, però és responsabilitat de cadascú validar si aquestes correspondències són certes o no.
A més a més: una vegada realitzat el procés i validades les correspondències, si envieu els resultats a Poligraf, aquests mapejos milloraran la base de coneixement i altres centres podran beneficiar-se d’aquest esforç col·lectiu.
Linked Data:
El resultat dels mapejos ens faciliten les URIs d’enllaç amb la font de referència, ja sigui VIAF, Getty AAT o Geonames. Posteriorment, quan carreguem les dades a Coeli o al nostre sistema, aquests ja estaran enllaçats.
Conclusions
L’objectiu és ajudar a les institucions a que les seves col·leccions estiguin disponibles i usables, facilitant que cada institució es centri en el seu negoci i per tant a:
- Nivell organitzacional
- Nivell tècnic: la capacitat dels components d’intercanviar informació
- Nivell de dades: en relació a la capacitat de compartir el significat de la informació (ens n’encarreguem nosaltres).
Així doncs, hem vist que només el 5% dels fons de museus estan online i que en molts casos la reutilització de les seves dades és pràcticament nul·la.
Per aquesta raó s’ha de seguir treballant en serveis i eines que tinguin en compte la interoperabilitat, integració de dades, estàndards, esquemes de metadades internacionals, normalització de termes, etc.
I difondre la col·lecció per totes bandes: web, agregadors, aplicacions mòbils, etc.
Pots consultar la presentació completa de Prezi.
Tens algun dubte? Pots deixar un comentari, comentar a les xarxes socials o contactar directament amb nosaltres.
I si estàs interessat en la normalització de dades, prova ara les nostres eines Poligraf.