Somos una gota en un mar de datos

Encara que estiguem hiperconnectats i tinguem abundants eines per cobrir totes les necessitats imaginables, en gran mesura estem aïllats, cadascú realitzant les seves funcions segons els seus criteris, invertint molts esforços, amb un retorn molt baix en quant a reutilització i difusió. Parlem de la interoperabilitat i integració de dades?

En España hay censados 1.468 museos o colecciones. 39.085.912 fondos de colecciones estables. 44,1% inventariados. 32,5% informatizados. 5,1% informatizados y accesibles por internet. [Fuente: Ministerio de Educación, Cultura y Deporte, 2014]

En conclusió: “Queda molt per fer”

Veiem que queda molt per fer, i els professionals de la documentació tenen molt per aportar.

Interoperabilitat i integració de dades


Interoperabilidad e integración de datos

Al voltant de la documentació de les peces de museu hi ha tot un aparell crític que és fonamental per la seva posada en valor i contextualització.

En aquest context és important registrar les diferències o les relacions que hi ha entre les peces de museu i els documents que es troben a l’arxiu, a la biblioteca, als fons fotogràfics, biografies d’autors, cronologies, exposicions, etc.

Habitualment, tota aquesta informació es troba gestionada per diferents departaments i dispersa en diferents aplicacions o bases de dades, generalment sense relació entre elles.

Com a conseqüència ens trobem:

  • Informació redundant: informació repetida a múltiples bases de dades, és a dir, que probablement hem reescrit més d’una vegada, duplicant esforços.
  • Estàndards de metadades descriptius diferents: clarament, els estàndards de metadades per descriure col·leccions de museu prescriuen camps diferents respecte als de la catalogació bibliogràfica.
  • Diferents fonts de referència pels vocabularis de valors
  • Relacions dèbils entre les dades: dins d’una mateixa institució, els fons gestionats per les diferents unitats d’informació (museu, arxiu, biblioteca, etc.) sovint estan interrelacionats. Tot i que sovint aquestes relacions s’enregistrin a les corresponents bases de dades, no sempre és fàcil materialitzar-les en enllaços, quan, per exemple, es publiquen al web.

La interoperabilitat o integració a nivell d’aplicacions i la integració de dades són estratègies, sovint complementàries, que ens poden ajudar a pensar la manera de bastir ponts entre illes d’informació.

Veiem a continuació els diferents nivells d’interoperabilitat:

  1. Interoperabilitat organitzacional
  2. Interoperabilitat tècnica
  3. Integració a nivell d’esquema de metadades
  4. Integració a nivell de vocabularis de valors

1r nivell: interoperabilitat organitzacional

Sovint ens centrem en la part més tecnològica i comencem a parlar de protocols, XML, OAI, Z39.50, etc., però hi ha un altre factor que, per sobre de tot, acostuma a ser el més complex de resoldre i, en general, converteix un projecte en un èxit o un fracàs:

La interoperabilitat organitzacional.

És a dir, “interoperabilitat” entre els objectius i processos de cadascuna de les unitat operatives de l’organització (col·leccions, comunicació, exposicions, activitats, centre de documentació…). Si realment desitgem donar un pas endavant és important apostar a nivell de tota la institució en l’establiment de polítiques, rols i lideratges que permetin dur a terme aquests projectes.

2n nivell: interoperabilitat a nivell tècnic

Per altra banda, hi ha aspectes tècnics a tenir en compte.

“La interoperabilitat és l’habilitat de dos o més sistemes o components d’intercanviar informació entre ells i utilitzar-la”

Tecnològicament parlant, existeixen dos models o estratègies principals per a la integració d’un sistema documental:

  • La interoperabilitat entre aplicacions
  • La integració conjunta a un dipòsit de dades

L’Institut d’Enginyeria Elèctrica i Electrònica (Institute of Electrical and Electronics Engineers, IEEE) defineix la interoperabilitat com l’habilitat de dos o més sistemes o components d’intercanviar informació entre ells i utilitzar-la.

En aquest sentit podem distingir entre:

  • Interoperabilitat interna: som interoperables de portes endins?
    • Les diferents aplicacions de la nostra institució, “parlen” entre elles?
    • Comparteixen dades?
    • Per exemple, podem compartir la mateixa llista d’autoritats, de descriptors temàtics o de registres bibliogràfics entre diferents aplicacions?
  • Interoperabilitat externa: som interoperables amb el món?
    • Els de fora, poden reutilitzar les nostres dades? En cas de que es puguin connectar, ens entenen?
    • Nosaltres, reutilitzem les seves dades? Podem integrar fàcilment informacions disponibles en bases de dades o fonts de referència externes?

A nivell intern, aquest model d’integració de les aplicacions té l’avantatge de resoldre la qüestió de normalització i interrelació de les dades des del principi.

Ara bé, encara que els tecnòlegs “poden amb tot” no sempre és fàcil fer que dues aplicacions parlin entre elles de manera eficaç.

Integració de dades

Per altra banda, però no menys important, hi ha la interoperabilitat a nivell de dades, és a dir:

  • Esquema de metadades
  • Vocabulari de valors

“La integració de dades és la combinació de dades residents a diferents fonts independents en una vista unificada d’acord amb un esquema global.”

Habitualment la integració de dades s’aconsegueix mitjançant processos anomenats ETL, de l’anglès Extract, Transform, Load (ETL): Extreure, Transformar i Carregar les dades en un nou dipòsit de dades.

Aquest procés intermedi de “Transformació” permet executar accions de normalització, interrelació i adaptació dels esquemes de metadades.

Perquè ens entenguem, és el que habitualment coneixement quan des del departament de Comunicació ens demanen: “passem les dades de col·leccions que hem de publicar el catàleg al web” o quan ens decidim a publicar el catàleg raonat en línia.

Llavors, sovint ens ataca el pànic:

  • I ens posem a revisar els autors perquè resulta que al web han d’aparèixer en un format diferent.
  • I a sobre s’ha de traduir tot perquè també ha de sortir en anglès.
  • I afegir les “URIs”, perquè sembla que algú aconseguirà convertir a EDM i enviar-ho a Europeana, etc.
  • Etc.

En molts casos aquests processos es realitzen a la fase de “Transformació”, fora de les aplicacions de treball habituals, i per tant són poc aprofitables, perquè el dia que toca actualitzar les dades, s’ha de tornar a fer.

3r nivell: esquemes de metadades

Un dels reptes de la integració de dades és la unificació dels esquemes descriptius de les diferents fonts de dades.

Quan es tracta d’un conjunt de recursos homogenis, el problema es redueix. Un cas d’èxit de la integració basada en estàndards, seria el dels catàlegs consorciats de biblioteques, que prescriuen la utilització en origen d’un mateix format estàndard, el MARC, que facilita enormement la integració en catàlegs col·lectius.

Però quan es tracta d’integrar fonts de dades heterogènies com objectes de museu, documents d’arxiu, bibliografia, esdeveniments i exposicions, etc.: com sumem peres amb pomes? Quin és l’estàndard dels estàndards?

No podemos sumar peras con manzanas.

Aquí entra l’anomenada integració basada en un esquema de mesura, que consisteix en establir una sèrie de mapejos (transformació) dels esquemes de metadades originals amb un esquema de metadades global comú per totes les tipologies.

Nosaltres ens hem atrevit a caracteritzar dos possibles plantejaments:

  1. Un, consisteix a buscar el Màxim Comú Divisor, és a dir, un esquema mínim comú a totes les tipologies documentals: si jo tinc 30 i tu en tens 40, doncs ens quedem amb 15.
    Un cas paradigmàtic d’aquest tipus d’aproximació és el Dublin Core, que amb els seus 15 elements s’ha utilitzat per descriure tot tipus de recursos.
  2. L’altra aproximació és adoptar un model de referència que sigui capaç d’integrar amb la màxima riquesa totes les tipologies documentals, el que seguint la “metàfora” podríem anomenar la cerca del Mínim Comú Múltiple: jo tinc 30, tu en tens 40, doncs anem a per 90.
    El CIDOC-CRM no és pròpiament un esquema de metadades com Dublin Core, però és una ontologia de referència que pretén donar resposta a tota aquesta diversitat amb més de 90 classes o entitats i més de 150 propietats.

I finalment ens quedarien els vocabularis de valors per tancar aquest apartat d’integració de dades, però farem un break i us ho deixarem per una segona part del post: Gestió i difusió de col·leccions de museus (II): integració de dades i normalització.


Aquesta entrada correspon a la primera part de la conferència: Gestió i difusió de col·leccions de museus: oportunitats per l’enriquiment i la interoperabilitat de les dades.

Des de Coeli vam assistir a les “XV Jornades Espanyoles d’Informació i Documentació” (2017) a títol de gestors documentals, i també com a conferenciants per parlar sobre la importància de la interoperabilitat i la integració de dades per gestionar i difondre col·leccions de museus.

Pots consultar la presentació completa de Prezi, la mateixa que vam veure a les jornades.