Tres eran tres las hijas del rey: planteamiento, desarrollo y explotación en datos científicos

Versió per a imprimirVersió per a imprimir
Inma Aleixos. Universitat Politècnica de València
Ricardo Albiñana. Universitat Oberta de Catalunya
José Morales.  Universitat Ramon Llull
Fernanda Peset. Universitat Politècnica de València
 

- Erway, Ricky. 2013. Starting the Conversation: University-wide Research Data Management Policy. Dublin, Ohio: OCLC Research. http://www.oclc.org/content/dam/research/publications/library/2013/2013-08.pdf
- LERU Research data Working group / LERU Roadmap for research data // LERU, 2013. Advice paper; 14. http://www.uzh.ch/research/LERU_Roadmap_for_Research_data.pdf
- Sergey Filippov / Mapping Text and Data Mining In academic and Research Communities in Europe // Lisbon Council 2014; special briefing issue 16. http://www.lisboncouncil.net/publication/publication/109-mapping-text-and-data-mining-in-academic-and-research-communities-in-europe.html

Parece que seguimos con la tradición de reseñar en una sola nota tres informes de temática común (Peset, 2013; Fenoll 2014). Vayamos pues a la tercera vez, completando el 3 con 3. Tratando de buscar un hilo conductor entre los informes de esta nota, podríamos leerlos de la siguiente manera: comenzaríamos por Erway, seguiríamos con LERU y terminaríamos en Filippov. Y pasaremos a exponer por qué lo hemos deducido tras su lectura: el primero identifica los stakeholders en el escenario de los datos de investigación y plantea el rol líder que puede asumir la biblioteca; el segundo informa exhaustivamente sobre qué debe acometerse; y por último, Filippov es una muestra de cómo el análisis de los datos con técnicas de minería pone en valor los datasets, única justificación de la extendida frase "los datos son el nuevo petróleo de la economía".

Erway, Senior Program Officer de OCLC Research, llama a la acción a los directores de bibliotecas universitarias para iniciar la conversación entre los stakeholders más relevantes de la universidad: vicerrectores de investigación, OTRI, servicios informáticos, investigadores y biblioteca. El personal bibliotecario posee el conocimiento y experiencia profesional idóneos para llevar a cabo las tareas de data curation. Es la oportunidad para asumir un rol emprendedor en la tarea de establecer políticas de gestión y conservación de datos en sus respectivas universidades. En nuestra consideración, es una idea apropiada para las universidades estadounidenses, con bibliotecas protagonistas del proceso de aprendizaje e investigación; idea que en nuestro país encontrará ciertos obstáculos al ser organizaciones más jerarquizadas y burocratizadas. En España, antes de iniciar la conversación, la biblioteca debe asegurar la formación de su personal en los temas que aborta la segunda mitad del informe. En ella incluye los elementos para que la conversación sea fructífera, aunque no especifica si son los mínimos o los máximos. Los plantea en forma de preguntas: ¿quién posee los datos?, ¿qué imposiciones externas hay sobre los datos?, ¿qué datos y cuánto tiempo se deberían retener?, ¿cómo deberían conservarse los datos digitales?, ¿hay consideraciones éticas?, ¿cómo se accederá a los datos?, ¿cuán abiertos deberían ser los datos?, ¿cómo se gestionarán los costes?, ¿qué alternativas hay a la gestión local de datos?

Preguntas todas ellas que han sido trabajadas exhaustivamente en el informe de LERU. En él se proponen seis aspectos a considerar, de los cuales ofrece detalles, casos de estudio y recomendaciones en sendos seis capítulos. El séptimo capítulo recoge todas las recomendaciones agrupadas según los diferentes actores. El primer capítulo, sobre políticas y liderazgo, sugiere que cada universidad debe crear su propia hoja de ruta para el desarrollo de una política institucional implicando a todos los stakeholders. El segundo capítulo, sobre promoción (advocacy), enumera las diferentes barreras, incentivos y elementos facilitadores del intercambio de datos en abierto. El tercer capítulo incluye temas como la selección y adquisición, curación, descripción, citación y temas legales de los datos de investigación. El capítulo cuarto propone una infraestructura socio-técnica que incluye: los propios datos, las herramientas de gestión de datos, los componentes técnicos y el personal. El capítulo quinto reconoce la necesidad de encontrar fuentes alternativas de financiación para cubrir la gestión y conservación de datos, al igual que reconoce que los modelos de costes actuales están todavía por desarrollar. Sugiere compartir los costes y servicios entre varias instituciones. El capítulo sexto (roles, responsabilidades y destrezas) incluye propuestas de formación desde los primeros estadios de los estudios de postgrado. Sorprende que no deja claro quiénes, entre todos los agentes implicados en la gestión de datos de investigación, pueden ser los formadores.

El último informe concretaría el círculo virtuoso del nuevo modelo de economía que desean nuestros gobernantes, una economía basada en el conocimiento y la innovación, donde los datos serán el motor de crecimiento. Filippov estudia para el Lisbon Council la situación de la investigación en data y text mining en Europa ya que Estados Unidos y China están ganando la partida al viejo continente. Utiliza dos métodos: estadística descriptiva sobre datos bibliográficos extraídos de ScienceDirect de Elsevier (data o text mining en título) y sobre datos de patentes (EspaceNet patent database); y entrevistas, algunas anónimas, a académicos y expertos en el tema, como por ejemplo nuestro compañero de INGENIO Ismael Ràfols. Concluye para el primer método que Gran Bretaña está a la cabeza en Europa y que uno de los grandes problemas es la legislación tan restrictiva y variada respecto al copyright de los conjuntos de datos sobre los que se podría investigar con técnicas de data mining, algo que también ponía de relieve LERU (recomendación número 71).

A destacar de este informe es el hecho de que la comunidad de bibliómetras es reivindicada como una de las pioneras en la búsqueda y aplicación de técnicas de minería, hoy tan en boga a causa de la eclosión socio-económica del Big Science. La investigación de Filippov, no obstante, tiene un claro sesgo hacia Netherlands por la base de datos que utiliza, por las entrevistas planteadas y por introducir o evitar mencionar datos de países a conveniencia. Como anécdota, señalamos que justifica nuestro "glorioso" segundo puesto del ránking por idiomas atribuyéndolo a nuestra unión idiomática con Latinoamérica. Sin comentarios.

En conclusión, los tres forman una unidad sobre la cuestión de los datos científicos. Contienen recomendaciones al más alto nivel (Directivas UE de Copyright y Bases de datos) o identifican la heterogeneidad de las políticas de revistas científicas con respecto a los datos. Estos aspectos, especialmente en Europa, pueden frenar la explotación de los datos, y no pueden dejar de plantearse junto a las cuestiones que se refieren a la creación y gestión de datos. Al fin y al cabo, detrás de los datos están las personas, lo que en último término siguen siendo el verdadero motor del movimiento. Y por eso nos preguntamos, ¿desde qué foro podríamos iniciar la conversación en nuestro país? Nosotros, desde el proyecto DATASEA quedamos a disposición de cualquier agente interesado en estos temas.


Bibliografía
Fenoll, Carme. Tres en uno: Australia, Canadá y la IPA nos ofrecen benchmarking en préstamo digital a bibliotecas públicas. Blok de BiD, 30/07/2014
García-García, Alicia; Peset, Fernanda. Tres en uno, tres informes sobre la gestión de los datos de investigación Blok de BiD, 04/09/2013