En este segundo post seguimos con la presentación que hicimos en FESABID 2017: Gestión y difusión de colecciones de museos: oportunidades para el enriquecimiento y la interoperabilidad de los datos.

Así pues, continuamos hablando sobre los vocabularios de valores y la normalización de datos.

En el anterior post introducimos el tema de la interoperabilidad y sus niveles:

  • Interoperabildiad organizacional
  • Interoperabilidad técnica
  • Esquemas de metadatos
  • Vocabularios de valores -> aquí es donde vamos a continuar ahora

Vocabularios de valores


Entramos en la cuestión de los vocabularios de valores, las listas de encabezamientos, los tesauros, taxonomías, etc.

¿De cuántas formas tenemos escrito un mismo nombre entre todas nuestras bases de datos?

Pablo PicassoPicasso, Pablo, 1881-1973Pablo Picasso (Pablo Ruiz Picasso)Pablo Picasso Spanish, 1881-1973Picasso, Pablo (Spanish painter, sculptor, and printmaker, 1881-1973)

¡Esto, permitidme que lo diga, ni tan siquiera se consigue siempre en los catálogos bibliográficos colectivos, que son el paradigma de la normalización y del éxito de la integración basada en estándares!

En el caso que nos ocupa, ya no hablamos de las inconsistencias en la normalización de los datos, o diferencias idiomáticas, a veces solo hay que tener en cuenta la diversidad de criterios de normalización que prescriben cada una de las tradiciones documentales en función de las necesidades de explotación de los datos.

Los estándares de bibliotecas, archivos, museos no siempre prescriben (o se sienten cómodos con) la misma sintaxis para escribir los nombres de los autores, los descriptores geográficos, tipológicos o temáticos, etc.

Unificar estas tradiciones en las bases de datos de origen no siempre es factible, pero resulta imprescindible para una verdadera integración de los datos, y permitir una consulta unificada de los fondos.

¿Cómo conseguirlo? Veamos qué es Linked Data

Con la irrupción y el auge del Linked Open Data se han consolidado obras de referencia internacional en la normalización de datos según su ámbito de actuación.

Pablo Picasso vinculado con VIAF. VIAF vinculado con LC, BNE y ULAN. ULAN vinculado con el MoMA

Estas obras de referencia nos proporcionan identificadores que nos son útiles para garantizar la interoperabilidad externa, a la vez que pueden ser útiles también para facilitar la interoperabilidad interna, dentro de la institución, al margen de las particularidades de cada unidad.

En este caso, yo, nosotros, tenemos a disposición un amplio abanico de fuentes de referencia que nos permiten hacernos entender por todo el mundo. Por ejemplo:

  • Tesauro de Arte y Arquitectura del Getty Institute
  • Viaf para autoridades
  • Geonames para nombres geográficos
  • En el ámbito español los Tesauros del patrimonio cultural de España
Yo (colección de museo) vinculado con VIAF, Geonames, AAT, TPCE, Wikipedia.

Poco a poco estas referencias se han posicionado como fuente normalizada y fiable de las taxonomías o vocabularios.

Algunos con peculiaridades que facilitan su expansión como puede ser:

  • Multilingüismo
  • Coordenadas geográficas
  • Formas variantes de los nombres
  • Datos complementarios

Pero muchas veces, cuando planteamos proyectos de normalización para adaptar los datos de una institución a estándares, nos encontramos con ciertas reticencias.

¿Pero qué nos dice la realidad?

Normalización


En las siguientes gráficas podemos ver:

  • Instituciones: 90
  • Total registros: 690.000
  • Descriptores únicos: 29.000

Los datos nos muestran que, por norma general, el 90% de registros de las colecciones usan tan solo un 7% de los descriptores existentes.

Por otro lado, el 86% de los descriptores los usa una sola institución i representa solo el 23% de los registros. En cambio, el 1% de los descriptores que son usados por más de 20 instituciones, representan casi el 50% de todos los registros.

Nos quedamos con que, en la mayoría de los casos se cumple de largo la regla de Pareto que dice que un 80% de los efectos son consecuencia del 20% de las acciones, que traducido a este caso sería:

Aunque la normalización afecte tan solo a un 20% de los términos, por lo general estos se usan en un 80% de los objetos.

Por lo tanto:

20% de esfuerzo, 80% de resultados

Prioricemos los esfuerzos, dedicando el 20% a los aspectos más generales donde podemos aprovechar la cooperación y compartición de recursos y dediquemos el 80% a mejorar en aquellos aspectos que nos hacen particulares o únicos. Que pongan en valor nuestra colección.

Poligraf


Desde Coeli trabajamos acorde a estas necesidades. Como complemento hemos creado Poligraf: un juego de herramientas de soporte a la normalización, servicio en abierto y a disposición de todo el mundo.

Poligraf es un sistema semiautomático que permite vincular y enriquecer los propios descriptores con algunas de las fuentes de referencia internacional.

Hemos puesto estos servicios en abierto, gratuitos y a disposición de todo el mundo.

Poligraf se compone de los siguientes servicios:

Proceso de uso de Autograf

Autograf. Página de carga de datos

Estas herramientas no hacen milagros, solo nos ayudan. En base a nuestra experiencia hemos creado un conjunto de reglas y una base de conocimiento que nos permite proponer valores posibles, pero es responsabilidad de cada uno validar si estas correspondencias son ciertas o no.

Inciso: Una vez realizado el proceso y validadas las correspondencias, si enviáis los resultados a Poligraf, estos mapeos mejorarán la base de conocimiento y otros centros podrán beneficiarse de este esfuerzo colectivo.

Linked Data:

El resultado de los mapeos nos facilitan las URIs de enlace con la fuente de referencia, ya sea VIAF, Getty AAT, Geonames. Posteriormente, cuando carguemos los datos en Coeli o en nuestro sistema, estos ya estarán enlazados.

Conclusiones


El objetivo es ayudar a las instituciones para que sus colecciones estén disponibles y usables. Facilitando que cada institución se centre en su negocio y por lo tanto en:

  • Nivel organizacional
  • Nivel técnico: la capacidad de los componentes de intercambiar información.
  • Nivel de datos: en relación a la capacidad de compartir el significado de la información, nos encargamos nosotros.

Bien hemos visto, que solo el 5% de los fondos de museos están online y que en muchos casos la reutilización de sus datos es prácticamente nula.

Por esta razón hay que seguir trabajando en servicios y herramientas que tengan en cuenta la interoperabilidad, integración de datos, estándares, esquemas de metadatos internacionales, normalización de términos,…

Y difundir la colección en todas partes: web, agregadores, aplicaciones móviles,….

Puedes consultar la presentación completa de Prezi.

 

¿Tienes alguna duda? Puedes dejar un comentario, comentar en las redes sociales o contactar directamente con nosotros.

Y si estás interesado en la normalización de datos, prueba ahora nuestras herramientas Poligraf.