Primera parte de la presentación FESABID 2017: Gestión y difusión de colecciones de museos: oportunidades para el enriquecimiento y la interoperabilidad de los datos.

Este pasado 25 y 26 de mayo tuvieron lugar las XV Jornadas Españolas de Información y Documentación. Desde Coeli asistimos a título de gestores documentales, y también como conferenciantes para hablar sobre la importancia de la interoperabilidad e integración de datos para gestionar y difundir colecciones de museos.

Y así empezó la conferencia:

Somos una gota en un mar de datos

Aunque estemos hiperconectados y tengamos abundantes herramientas para cubrir todas las necesidades imaginables, en gran medida estamos aislados, cada uno realizando sus funciones según sus criterios y con unos esfuerzos altos, con un retorno en cuanto a reutilización y difusión muy bajos.

En España hay censados 1.468 museos o colecciones. 39.085.912 fondos de colecciones estables. 44,1% inventariados. 32,5% informatizados. 5,1% informatizados y accesibles por internet. [Fuente: Ministerio de Educación, Cultura y Deporte, 2014]

Moraleja: “Hay mucho por hacer”

Vemos que hay mucho por hacer, y en este ámbito los profesionales de la documentación tienen mucho que aportar.

Interoperabilidad e integración de datos


Interoperabilidad e integración de datos

Alrededor de la documentación de las piezas de museo hay todo un aparato crítico que es fundamental para su puesta en valor y contextualización.

Así, es importante registrar las referencias o las relaciones que hay entre las piezas de museo y los documentos que se encuentran en el archivo, en la biblioteca, en los fondos fotográficos, biografías de los autores, cronologías, exposiciones, etc.

Habitualmente, toda esta información se encuentra gestionada por diferentes departamentos y dispersa en diferentes aplicaciones o bases de datos, en gran medida independientes.

Como consecuencia nos encontramos con:

  • Información redundante: información repetida en múltiples bases de datos, es decir, que probablemente hemos tenido que reescribir varias veces: esfuerzo redundante.
  • Estándares de metadatos descriptivos distintos: claramente, los estándares de metadatos para describir colecciones de museo prescriben campos diferentes respecto a los de catalogación bibliográfica.
  • Diferentes fuentes de referencia para los vocabularios de valores.
  • Relaciones débiles entre los datos: dentro de una misma institución los fondos gestionados por las varias unidades de información (museo, archivo, biblioteca, etc.) a menudo están interrelacionados. Aunque a menudo estas relaciones se registran en las correspondientes bases de datos, no siempre es fácil materializarlas en enlaces, cuando por ejemplo se publican en la web.

La interoperabilidad o integración a nivel de aplicaciones y la integración de datos son dos estrategias, a menudo complementarias, que nos pueden ayudar a pensar la manera de tender puentes entre estas islas de información.

Veamos a continuación los diferentes niveles de interoperabilidad:

  1. Interoperabilidad organizacional
  2. Interoperabilidad técnica
  3. Integración a nivel de esquemas de metadatos
  4. Integración a nivel de vocabularios de valores

1er nivel: interoperabilidad organizacional

A menudo nos centramos en la parte más tecnológica y empezamos a hablar de protocolos, XML, OAI, Z39.50, etc., pero hay otro factor al que, por encima de todo, debemos prestar atención, suele ser el más complejo de resolver y el que, por lo general, convierte un proyecto en un éxito o un fracaso:

La interoperabilidad organizacional.

O sea, “interoperabilidad” entre los objetivos y procesos de cada una de las unidades operativas de la organización (colecciones, comunicación, exposiciones, actividades, centro de documentación,…). Si realmente deseamos dar un empujón es importante apostar a nivel de toda la institución en el establecimiento de políticas, roles y liderazgos que permitan llevar a cabo estos proyectos.

2do nivel: Interoperabilidad a nivel técnico

Por otro lado, hay, por supuesto, aspectos técnicos a tener en cuenta.

“La interoperabilidad es la habilidad de dos o más sistemas o componentes de intercambiar información entre ellos y utilizarla”

Tecnológicamente hablando existen dos modelos o estrategias principales para la integración de un sistema documental:

  • La interoperabilidad entre aplicaciones
  • La integración conjunta en un repositorio de datos

El Instituto de Ingeniería Eléctrica y Electrónica (Institute of Electrical and Electronics Engineers, IEEE) define la interoperabilidad como la habilidad de dos o más sistemas o componentes de intercambiar información entre ellos y utilizarla.

En este sentido podemos distinguir entre:

  • Interoperabilidad interna: ¿somos interoperables de puertas para adentro?
    • Las diferentes aplicaciones de nuestra institución, ¿”hablan” entre ellas? ¿comparten datos?
    • Por ejemplo, ¿podemos compartir una misma lista de autoridades, de descriptores temáticos o de registros bibliográficos entre varias aplicaciones?
  • Interoperabilidad externa: ¿somos interoperables con el mundo?
    • Los de afuera, ¿pueden reutilizar nuestros datos? En el caso que se puedan connectar… ¿nos entienden?
    • Nosotros, ¿reutilizamos los suyos? ¿Podemos nosotros, integrar fácilmente informaciones disponibles en bases de datos o fuentes de referencia externas?

A nivel interno, este modelo de integración de las aplicaciones tiene la ventaja de resolver la cuestión de la normalización e interrelación de los datos desde el principio.

Ahora bien, aunque los tecnólogos “pueden con todo” no siempre es fácil hacer que dos aplicaciones hablen entre ellas de manera eficaz.

Integración de datos

Por otro lado, pero no menos importante, está la interoperabilidad a nivel de datos, es decir:

  • Esquemas de metadatos
  • Vocabularios de valores

“La integración de datos es la combinación de datos residentes en diferentes fuentes independientes en una vista unificada de acuerdo con un esquema global.”

Habitualmente la integración de datos se consigue mediante procesos llamados ETL, del inglés Extract, Transform, Load (ETL): Extraer, Transformar y Cargar los datos en un nuevo repositorio de datos.

Este proceso intermedio de Transformación permite ejecutar acciones de normalización, interrelación i adaptación de los esquemas de metadatos.

Para que nos entendamos, es lo que habitualmente hacemos cuando desde el departamento de Comunicación nos piden: “pásame los datos de colecciones que vamos a publicar el catálogo en la web” o cuando nos decidimos a publicar el catálogo razonado en línea.

Entonces, a menudo corre el pánico,

  • Y nos ponemos a revisar los autores porque resulta que en la web tienen que aparecer en un formato diferente.
  • Y además hay que traducirlo todo porque hay que salir también en inglés.
  • Y añadir las “URIs”, porque parece que alguien conseguirá convertir en EDM y mandarlo a Europeana, etc.
  • etc.

En muchos casos estos procesos se realizan en la fase de “Transformación”, fuera de las aplicaciones de trabajo habituales, y por lo tanto son poco aprovechables, porque el día que toca actualizar los datos, hay que volver a hacerlo.

3er nivel: esquemas de metadatos

Uno de los retos de la integración de datos es la unificación de los esquemas descriptivos de las diferentes fuentes de datos.

Cuando se trata de un conjunto de recursos homogéneos, el problema se reduce. Un caso de éxito de integración basada en estándares, sería el de los catálogos consorciados de bibliotecas, que prescriben la utilización en origen de un mismo formato estándar, el MARC, lo cual facilita enormemente la integración en catálogos colectivos.

Pero cuando se trata de integrar fuentes de datos heterogéneas… objetos de museo, documentos de archivo, bibliografía, eventos y exposiciones, etc.: ¿Cómo sumamos peras con manzanas? ¿cuál es el estándar de los estándares?

No podemos sumar peras con manzanas.

Aquí entra la llamada integración basada en un esquema de mediación, que consiste en el establecimiento de una serie de mapeos (transformación) de los esquemas de metadatos originales con un esquema de metadatos global común para todas las tipologías.

Nosotros nos hemos atrevido a caracterizar dos posibles planteamientos:

  • Uno, consiste en buscar el Máximo Común Divisor, o sea un esquema mínimo común a todas las tipologías documentales, es decir: yo tengo 30, tu tienes 45, pues nos quedamos con el 15.
    Un caso paradigmático de este tipo de aproximación es el Dublin Core, que con sus 15 elementos se ha usado para describir todo tipo de recursos.
  • La otra aproximación es adoptar un modelo de referencia que sea capaz de integrar con la máxima riqueza todas las tipologías documentales, lo que siguiendo la “metáfora” podríamos llamar la búsqueda del Mínimo Común Múltiplo: yo tengo 30, tu tienes 45, pues nos vamos a por 90.
    El CIDOC-CRM –no es propiamente un esquema de metadatos como DublinCore–, pero es una ontología de referencia que pretende dar respuesta a toda esta diversidad con más de 90 clases o entidades y más de 150 propiedades.

Y finalmente nos quedarían los vocabularios de valores para cerrar este apartado de integración de datos, pero vamos a hacer un break y os lo dejamos en la segunda parte del post: Gestión y difusión de colecciones de museos (II): Normalización de datos y Poligraf.

 

Puedes consultar la presentación completa de Prezi, que vimos el día de la conferencia.