Las posibilidades de la minería de texto y datos en la educación superior y en la investigación pública: un análisis de casos de estudio del Reino Unido y Francia

Versión para impresiónVersión para impresión

Juan-Antonio Pastor-Sánchez
Profesor titular del Departamento de Información y Documentación
Coordinador de bibliotecas
Universidad de Murcia


Johnson, Rob; Fernholz, Olga; Fosci, Mattia (2016). Text and data mining in higher education and public research: an analysis of case studies from the United Kingdom and France. [S. l.]: Association des Directeurs & personnels de direction des Bibliothèques Universitaires et de la Documentation (ABDU). 47 p. Disponible en: http://adbu.fr/competplug/uploads/2016/12/TDM-in-Public-Research-Revised.... [Consulta: 19/05/2017].


La ADBU (Association des Directeurs & personnels de direction des Bibliothèques Universitaires et de la Documentation) publicó en diciembre de 2016 el informe Text and data mining in higher education and public research. El estudio se ha realizado con el apoyo del Gobierno francés, más concretamente por parte del Ministère de l’Education nationale, de l’Enseignement supérieur et de la Recherche (MENESR). El informe está disponible bajo licencia Creative Commons Attribution 4.0.

Se trata de un análisis de casos de estudio de investigadores de Francia y el Reino Unido con el fin de evaluar las posibilidades que ofrece la aplicación de excepciones respecto a los derechos de autor para la aplicación de técnicas de minería de texto y datos sobre materiales sujetos a copyright.

Sin duda, estamos ante un informe que se basa en el interés de la Comisión Europea para modernizar la legislación sobre copyright en entornos digitales, no solamente para educación o investigación, sino también para la conservación del patrimonio cultural.

La minería de texto y datos (text and data mining, TDM) se refiere a técnicas y herramientas para analizar de forma automática textos y datos en formato digital. El objetivo que persigue tal análisis es la identificación de indicadores, tendencias, patrones, correlaciones, etc. En este sentido, estamos asistiendo a un crecimiento exponencial del volumen de datos estructurales y no estructurados accesibles en línea a través de Internet o disponibles en formato digital a nivel corporativo. Un dato que debe hacernos reflexionar es que cada año se publican más de 2,4 millones de artículos científicos, lo que hace que el trabajo de revisión por parte de los investigadores sea virtualmente imposible. La TDM afronta este problema aplicando sistemas de software que analizan documentos y datos digitales de todo tipo para localizar determinados patrones o criterios de búsqueda, recuperación y procesamiento de información.

La Comisión Europea, en una nota de prensa y un memorando de septiembre de 2016, declara ser consciente que para extraer dicha información los materiales deben estar accesibles, ser copiados, almacenados y, a veces, transformados en formatos diferentes del original para facilitar su procesamiento. Esto puede entrar en conflicto con los derechos de autor y, en consecuencia, es necesario realizar una profunda revisión de todo el acervo normativo sobre derechos de autor, propiedad intelectual, derechos de explotación de contenidos y bases de datos y regulación contractual. El informe avisa sobre la situación en Europa al respecto en comparación con otros ámbitos geográficos: en Estados Unidos se aplica la doctrina del «uso justo» de forma que los investigadores tengan fundamentos para aplicar técnicas de TDM sobre contenidos sujetos a copyright con un respaldo legal; en Asia diferentes consorcios de investigación pública son actualmente la punta de lanza en la investigación y desarrollo de este tipo de tecnologías. Los investigadores europeos estaban en desventaja ya que no disponían de una legislación similar, sin embargo el Reino Unido desarrolló una normativa de excepciones al derecho de autor en 2014 y, en 2016, Francia hizo algo similar. Por su parte, la Comisión Europea ya está trabajando en proyectos normativos similares que serán de aplicación en un futuro en todos los estados miembro.

La metodología seguida se ha basado en una revisión de la literatura científica sobre el tema, la identificación y posterior desarrollo de casos de estudio y la validación final de los resultados y hallazgos obtenidos.

El informe se estructura en dos partes claramente diferenciadas. La Parte A ofrece un resumen del contexto en el que se desarrolla la TDM, identificando campos de aplicación relevantes. Para ello, se realiza una definición y delimitación del concepto de TDM, aclarando las causas que propiciaron su aparición y desarrollo, así como las ventajas que conlleva su aplicación en tareas de investigación. A continuación, se muestra un estudio del contexto normativo y jurídico actual (copyright, derechos de autor, etc.) que afecta al uso de la TDM en el ámbito europeo, estudiando de forma más concreta las iniciativas en Francia, el Reino Unido y la Unión Europea. El informe aborda detenidamente en este punto las implicaciones prácticas que supondría la capacidad que tendrían los investigadores para utilizar técnicas que permitirían explotar todo el potencial de la TDM.

La Parte B analiza una serie de casos de estudio desarrollados tanto por investigadores como por  profesionales en la aplicación de la TDM. Los diferentes casos ilustran el uso que actualmente se realiza para la extracción de información y datos de publicaciones científicas, tanto en Francia como en el Reino Unido. Asimismo, evalúa la pertinencia de definir excepciones legales de copyright y derechos de autor para este propósito, teniendo en cuenta que en los casos británico y francés las excepciones son de aplicación en el contexto de la investigación no comercial, quedando aún por delimitar otras implicaciones y retos sobre esta materia en el futuro.

Los quince casos analizados en el informe (siete británicos, seis franceses, uno estadounidense y uno de los Países Bajos) son de gran relevancia para comprender las implicaciones y retos a los que se enfrenta el uso de la TDM. El informe define cinco áreas de actuación clave:

  • Alcanzar claridad jurídica. Introducir excepciones en los derechos de autor no es suficiente para capacitar a los investigadores para que lleven a cabo la TDM. Precisan una orientación clara sobre el alcance de las mismas.
     
  • Acceso al contenido. Los casos analizados muestran que los investigadores en el Reino Unido y Francia tienen la sensación que una de las limitaciones de su investigación tiene su causa en la imposibilidad de acceder al contenido. Algo que contrasta con el argumento de los editores respecto a que reciben relativamente pocas solicitudes. Conciliar las necesidades de los investigadores y los intereses comerciales y competitivos de los editores es fundamental para mejorar la aceptación de la TDM.
     
  • Desarrollar la infraestructura técnica. La minería de textos a gran escala resulta imposible sin una infraestructura tecnológica adecuada que permita a los investigadores utilizar la TDM con una experiencia técnica mínima.
     
  • Mejorar las habilidades y el apoyo. La TDM requiere un alto nivel de alfabetización digital. Los expertos en minería de textos, los departamentos de informática y las bibliotecas pueden desempeñar un papel de apoyo fundamental a los investigadores en la adquisición de las habilidades necesarias. Por otro lado, es preciso mejorar los niveles de colaboración entre los expertos en minería de texto y datos y los científicos especializados.
     
  • Proporcionar fondos e incentivos. En realidad, la TDM se enfrenta a muchos de los mismos desafíos que el movimiento de ciencia abierta. Los investigadores sobre la TDM son a menudo pioneros, y les resulta difícil asegurar el reconocimiento académico y recompensas por este tipo de trabajo y las líneas de investigación desarrolladas. Las entidades financiadoras y los responsables de las políticas de investigación deberían desarrollar mayores incentivos para la investigación en la TDM antes de que pueda prosperar realmente y obtener resultados con un impacto relevante.

Los casos de estudio se agrupan en torno a las áreas anteriormente mencionadas y en cada una de ellas se exploran los desafíos a los que se enfrentan los investigadores y se hacen sugerencias sobre cómo pueden ser superados. El informe contiene tres apéndices: una lista de los entrevistados y contribuyentes al estudio, una relación de las excepciones en el ámbito de la Unión Europea, el Reino Unido y Francia a la TDM y una lista de abreviaturas y glosario de términos utilizados en el informe.

El informe concluye que la TDM tiene un enorme potencial para acelerar la investigación pública, y para ofrecer mayores beneficios económicos y sociales. La introducción de una excepción de derecho de autor ayuda a situar a los investigadores europeos en igualdad de condiciones con los de Asia y Norteamérica. Sin embargo, aunque los especialistas en TDM (principalmente del Reino Unido) ya están viendo los beneficios, la aceptación general sigue siendo baja. Hay que hacer más para que la TDM sea ampliamente utilizada por investigadores tanto en el Reino Unido como en Francia. El informe confirma que existen barreras reales si no se adoptan excepciones jurídicas en relación a los derechos de autor y de explotación. Sin embargo, también existen factores técnicos y culturales que también suponen un obstáculo para el desarrollo de la TDM. El informe finaliza con una serie de recomendaciones para eliminar dichas barreras, dirigidas a las bibliotecas, legisladores y administradores institucionales de las políticas científicas y de investigación.