Enriquecer las publicaciones con datos empíricos

Versión para impresiónVersión para impresión
Ángel Borrego
Facultad de Biblioteconomía y Documentación
Universitat de Barcelona
 

Reilly, Susan; Schallier, Wouter; Schrimpf, Sabine; Smit, Eekfe; Wilkinson, Max. Report on integration of data and publications. 2011. <http://www.alliancepermanentaccess.org/wp-content/uploads/downloads/2011/11/ODE-ReportOnIntegrationOfDataAndPublications-1_1.pdf>


Los datos empíricos son la base de la investigación científica. Durante los últimos años se han incrementado extraordinariamente el volumen y la rapidez con la que estos datos se obtienen y se comparten gracias al perfeccionamiento de los instrumentos de medición y a la utilización de Internet para la comunicación entre los investigadores. Como resultado, la cadena de la comunicación científica se ha ampliado más allá de la publicación de artículos en revistas científicas y otras tipologías documentales para incorporar la captura, descripción y reutilización de los datos primarios en los que se basan estas publicaciones. El reto al que nos enfrentamos radica en gestionar estos datos para que no se pierda el enlace entre las evidencias empíricas y las publicaciones científicas que se derivan de ellas.

El informe que reseñamos aborda las posibilidades de integración de datos y publicaciones, aunque lo hace sin ofrecer resultados nuevos, sino sintetizando los obtenidos en diversos proyectos previos con la finalidad de identificar ejemplos de estas prácticas. Específicamente, los autores analizan los incentivos y las barreras en la práctica de compartir datos desde el punto de vista de investigadores, editores y bibliotecas/centros de datos.

Según parece, los investigadores son proclives a compartir datos. De entrada, en torno al 60% de ellos querría utilizar los datos primarios recopilados por otros científicos. El principal obstáculo para no hacerlo es que generalmente estos datos no están disponibles. En aquellos casos en que sí están publicados, resultan difíciles de localizar. Y, si se localizan, falta la información adicional que permita interpretarlos. Por otro lado, en torno a un 40% de los investigadores tiene problemas para compartir sus propios datos. Las principales barreras que encuentran los investigadores son de tipo legal, especialmente si los sujetos de la investigación son seres humanos, y el temor a un posible mal uso de los datos.

Cuando se pregunta a los investigadores cómo les gustaría poner sus datos a disposición de la comunidad científica, la respuesta mayoritaria es un repositorio (al 81% le agradaría depositar sus datos en su repositorio institucional y al 60% en uno temático), mientras que la segunda opción son las editoriales (51%). En realidad las preferencias aún quedan lejos de las prácticas reales: menos del 20% de los investigadores archiva datos en un repositorio institucional, menos del 10% lo hace en uno temático y menos de 20% envía datos a los editores de las revistas junto a sus manuscritos.

La solución plantada en el informe para hacer disponibles los datos primarios es relacionarlos con las publicaciones a las que dan lugar. La principal razón para actuar de esta manera es que las publicaciones son la segunda vía a través de la cual los investigadores conocen la existencia de archivos de datos, sólo por detrás de la información informal suministrada por colegas y al mismo nivel que los motores de búsqueda. Al mismo tiempo, las publicaciones no sólo ayudan a encontrar los datos, sino que contribuyen a interpretarlos y ofrecen crédito científico a los investigadores que los comparten. En el sentido inverso, los datos añaden valor al artículo y facilitan su comprensión.

Por lo que hace al papel de las editoriales, el informe identifica diversos mecanismos para que éstas hagan disponibles los ficheros de datos relacionados con los artículos que publican, ya sea mediante la publicación de materiales suplementarios (en el propio servidor de la editorial o en un repositorio externo) o, más recientemente, mediante la aparición de revistas dedicadas exclusivamente a la publicación de artículos descriptivos sobre conjuntos de datos disponibles en un repositorio (véanse, por ejemplo, las revistas Earth System Science Data o GigaScience). Esta opción permite a los autores obtener crédito por la recogida de los datos al mismo tiempo que difunden su existencia. No obstante, existen diversos problemas en torno a la opción de que sean las editoriales quienes se responsabilicen de la publicación y conservación de los datos por cuanto la validación que realizan de los ficheros suele ser meramente formal y la gran mayoría de editoriales no dispone de medidas de preservación que vayan más allá de las que aplican a los artículos que publican.

Por lo que hace a la perspectiva de los centros de datos y las bibliotecas, no deja de ser curioso que ambos tipos de centros se analicen conjuntamente cuando tradicionalmente estaban en extremos opuestos de la cadena de investigación: los centros de datos ayudaban a recoger y procesar datos primarios y las bibliotecas gestionaban el acceso a las publicaciones resultado del análisis de esos datos. No obstante, con la integración de datos y publicaciones, las barreras se difuminan y centros de datos y bibliotecas adquieren papeles complementarios. De momento, parece que la mayor parte de las bibliotecas ve la conservación de datos como parte de su actividad aunque aún son minoría las que los aceptan para su almacenamiento y preservación.

El informe finaliza identificando los cinco elementos clave para asegurar a lago plazo la integración de datos y publicaciones ─disponibilidad, localización, interpretación, reutilización y citación─ y resumiendo algunas de las aportaciones al seminario que sobre el tema se desarrolló en el congreso de Liber celebrado el último verano en Barcelona.

Se trata, en definitiva, de un informe que aborda un tema de gran actualidad y que ganaría en claridad con una mejor estructuración e integración de las diversas fuentes en las que se basa.