Tony Hernández-Pérez
Departamento de Biblioteconomía y Documentación
Universidad Carlos III de Madrid
Monitoring the open access policy of Horizon 2020: final report (2021). European Commission, Directorate-General for Research and Innovation. Luxembourg: Publications Office of the European Union. 118 p. Disponible en: <https://data.europa.eu/doi/10.2777/268348>. Consulta: [14/02/2022].
Horizon 2020 (H2020) fue el programa de investigación e innovación de la Comisión Europea (2014-2020) que invirtió casi 77 mil millones de euros. Al programa H2020 le ha sucedido el programa Horizon Europa (95,5 mil millones de euros de presupuesto para el período 2021-2024). Una vez finalizado H2020 se está procediendo a la evaluación del programa. Este informe en particular está dedicado al análisis de la política de acceso abierto de los proyectos financiados en dicho programa. Conviene recordar que los artículos 29.2 y 29.3 del contrato, que había que firmar cuando se concedían proyectos H2020, estipulaban algunos requisitos de obligado cumplimiento con el fin de favorecer el acceso abierto para las publicaciones y para los datos de investigación producidos en esos proyectos financiados.
La lectura de este trabajo resulta muy interesante no solo para investigadores de política científica o de acceso abierto sino también para bibliotecarios trabajando con repositorios y/o investigadores, pues se hace un análisis de la metodología utilizada para medir el acceso abierto, de los costes de publicación APC y recomendaciones sobre cómo hacer el seguimiento del cumplimiento de las políticas de acceso abierto orientadas especialmente a la Comisión Europea, pero también muy aplicables a los repositorios institucionales, particularmente en lo referente a la vinculación con la infraestructura OpenAIRE.
Los resultados demuestran que la inversión y la apuesta sobre el acceso abierto ha merecido la pena y ha colocado a la Comisión Europea como líder en política de ciencia abierta. En el análisis del trabajo se identificaron 218.558 publicaciones únicas, no solo artículos, también literatura gris, relacionadas con H2020. De ellas, 154.185 fueron trabajos revisados por pares. Y se estima que para el período 2014-2019 ha habido una mejora del 65 % al 83 % aproximadamente en el acceso abierto a publicaciones científicas resultado de los proyectos financiados. Las publicaciones se pudieron encontrar en fuentes abiertas como OpenAIRE, Unpaywall, CrossRef, OpenAPC, DataCite, ORCID, DOAJ, re3data, aunque la investigación se complementó con el acceso a bases de datos comerciales como Web of Science o Scopus.
Respecto a las publicaciones en acceso abierto, el 50 % de ellas fueron editadas por alguna de las tres grandes editoriales (Elsevier, Springer Nature, Wiley), y otro 48 % por 17 editoriales (MDPI, American Chemical Society, IOP, Royal Society of Chemistry, IEEE, Frontiers, etc). En términos de cargos por procesamiento de artículos (APC), el informe hizo un análisis de 86.767 artículos publicados en acceso abierto «gold» (vía dorada, de pagar por publicar) y se concluyó que el coste medio de artículos en acceso abierto en revistas «gold» ha sido de unos 2.200 euros por artículo mientras que en revistas híbridas fueron aún más caros, 2.600 euros, lo que puede servir para explicar por qué excluir a las revistas híbridas de Horizon Europe, el impulso de la Comisión Europea a la plataforma Open Research Europe (ORE) o al Plan S.
El informe hace un análisis de las publicaciones en acceso abierto por áreas de conocimiento y por programas. Y señala el programa Pilar de Excelencia como una historia de éxito en acceso abierto y, en particular, el programa European Research Council y el de Future and Emerging Technologies (FET). Por áreas de conocimiento destaca el grado de acceso abierto alcanzado en las publicaciones sobre medicina y ciencias de la salud (88 %) y ciencias naturales (82,8 %). Los datos son similares a los encontrados por otras agencias financiadoras de la investigación en Europa y EE.UU.
El informe propone que para aumentar el acceso abierto convendría también financiar Cargos por Procesamiento de Libros (BPC) incluso para publicaciones realizadas después del proyecto, aunque el cálculo de los costes BPC sigue siendo un reto. Si bien la base de datos de OpenAPC ofrece datos fiables para el cálculo de costes de artículos, no se puede decir lo mismo para el caso de los libros o capítulos de libros puesto que ni OpenAPC ni OAPEN recogen datos de forma sistemática o utilizan fuentes de datos suficientemente fiables como para extrapolar valores. Sólo el 1,4 % de los libros o capítulos de libros «gold» de H2020 se pudieron encontrar en la base de datos OpenAPC BPC.
Tabla 1: Ratio de acceso abierto por dominio científico (Frascati nivel 1)
El depósito de las publicaciones mediante la vía verde parece estar bien asentada en los repositorios institucionales, más que en los de propósito general: 75.129 publicaciones se depositaron en repositorios institucionales y 62.037 en repositorios temáticos o servidores preprint. Y el 81,9 % de las publicaciones vía dorada también fueron depositadas en un repositorio, lo que indica que los investigadores comprenden bien la política de depositar en los repositorios, aunque se haya publicado en abierto en una revista. Sin embargo, el plazo de depósito en los repositorios cuando se publica mediante la vía dorada aún se demora aproximadamente un año, lo que indica que el depósito inmediato mediante la vía verde todavía no se está implementando bien.
Respecto a la reutilización, el 49 % de los trabajos identificados de acceso abierto se publicó con licencias Creative Commons (CC), con diferentes niveles de restricciones; el 33 % utilizó licencias específicas de los editores, en las que se estipulaban restricciones sobre el texto y la minería de datos (TDM) mientras que el 18 % restante fueron publicaciones, principalmente, en repositorios institucionales en donde no constaba ningún tipo de licencia, lo que se traduce en una especie de uso no legal para propósitos de TDM, por ejemplo.
Sobre datos de investigación
El grado de cumplimiento y aceptación del acceso abierto para los datos de investigación tuvo una tasa de éxito del 95 %. De los que optaron por no participar en el piloto de datos (opt-out) de investigación abiertos (ORDP) muchos no ofrecieron razones específicas para quedarse fuera y algunas de las razones más alegadas fueron: la protección de resultados (patentes), la incompatibilidad del proyecto con la protección de la privacidad de los datos o simplemente porque el proyecto no generaba datos.
Aunque se hable de un 95 % de tasa de éxito, el informe reconoce que los datos deben analizarse con precaución puesto que cada comunidad científica emplea diferentes prácticas respecto a los datos de investigación. Por ejemplo, ni siquiera el concepto de «dataset» es el mismo para todas las disciplinas y mientras que en campos como ciencias de la vida ya llevan décadas construyendo infraestructuras y recopilando datos en bases de datos, como GenBank o el Protein Data Bank, o recopilando largos volúmenes de datos procedentes de sensores y permitiendo su acceso vía API, como SeaDataNet, en otros campos los grandes repositorios apenas existen o contienen metadatos poco reutilizables por poco informativos.
La producción de datos de investigación de acceso abierto es más prominente en ciencias naturales, seguido de ingeniería y tecnología, luego medicina y ciencias de la salud. Sin embargo, dado que los números aún son bastante bajos, la vinculación consistente de las publicaciones a los conjuntos de datos que las sustentan, algo que aún no es muy común, contribuirían en gran medida a ayudar a evaluar el grado de cumplimiento. La ratio más alta de acceso abierto para datos de investigación (datasets) se encontró en los proyectos de los programas de salud, de infraestructuras y, de nuevo, en los del programa del European Research Council (ERC).
Apenas el 39 % de los datasets que se depositaron son encontrables (Findability), debido a la falta de un URI válido y aún menos, el 32 %, son accesibles porque ni siquiera tenían un URL válido así que solo fue posible evaluar la interoperabilidad de este 32 %. Respecto a los datasets analizados, 3.591 incluyen una licencia en los metadatos del repositorio en el que se localizaron lo que permite estimar un nivel mínimo de cumplimiento del 66,9 %. De ellos, 3.492 datasets contenían licencias Creative Commons (CC), la mayoría del tipo CC-BY y CC-BY-SA.
Lecciones aprendidas
El estudio identifica como un aspecto clave de la ineficiencia del sistema de financiación sobre acceso abierto la falta de conciencia y de conocimiento de parte de los investigadores, tanto de los requisitos sobre el acceso abierto que se exigían como de la falta de conocimiento de rutas alternativas de publicación en acceso abierto.
Entre los hallazgos destacan que los repositorios institucionales han respondido bien al reto de modificar sus procesos internos y sus metadatos: el 95 % de las publicaciones depositadas contienen algún tipo de identificador persistente (PID) y el 73 % identifican con claridad si se trata de documentos a texto completo y pueden ser recuperados a través de los protocolos más comunes. Por el contrario, los datasets en los repositorios presentan un bajo nivel de cumplimiento de los requisitos exigidos, sólo el 39 % de los datasets identificados son encontrables (por ejemplo, sus metadatos carecen de un PID y/o URL al fichero de datos) y apenas el 32 % son accesibles incluso conteniendo un PID y/o URL.
Existen muchas áreas de mejora en el proceso de monitorización de las publicaciones en acceso abierto, entre otros citan que: los repositorios no siempre proporcionan metadatos claves. Por ejemplo, estatus de la revisión por pares de los artículos, fechas de envío, publicación o versión, la información sobre los proyectos y los datos de los beneficiarios de estos proyectos son en muchos casos de baja calidad, debido a la falta de consistencia y rigor en la política de entrada de datos entre editores y repositorios.
Y lo que es peor, los autoinformes de los beneficiarios de los proyectos en el portal correspondiente de la Comisión Europea presentan numerosos problemas para poder comprobar si cumplen con los requisitos de la propia Comisión o no: muchos de ellos no informan de las publicaciones, cuando informan a veces carecen de metadatos básicos como el DOI u otro identificador válido, no se proporciona información sobre los períodos de embargos o es poco clara y con los datasets muchas veces ni se indican qué herramientas e instrumentos se necesitan para la validación de resultados.
En cuanto a los datos de investigación, el informe identifica problemas serios por lo que se refiere a la falta de habilidades de gestión de datos y conocimiento entre los beneficiarios de los proyectos. A menudo, no son metódicos ni distinguen qué tipos de datos abrir (brutos vs anotados vs procesados); o no saben qué documentación debe ser incluida junto a los datos o qué regulación de protección de datos debe aplicarse. Los planes de gestión de datos (DMP) suelen ser muy rudimentarios porque los investigadores no comprenden algunos principios básicos, como los principios FAIR. Además, los datasets tienden a ser muy grandes y complejos y almacenarlos y preservarlos de forma abierta y accesible requiere gran capacidad de espacio y personal cualificado, lo que puede suponer una carga financiera significativa para los equipos de investigación.
El informe merece una lectura tranquila. Se estructura en siete partes: una introducción (1), un apartado de anexos (7) y otros cinco en los que habría que destacar el apartado de la metodología general que se ha seguido en el estudio (2), el análisis de las deficiencias del sistema de monitorización de acceso abierto (5) y el de las lecciones aprendidas (6) en donde se analiza la eficacia y la eficiencia de las políticas de acceso abierto puestas en marcha por la Comisión para el programa H2020 y en el que se ofrecen muchas ideas y metodologías de aspectos a mejorar de los repositorios y de la integración en OpenAire a partir de lo aprendido en el estudio. Los apartados 3 y 4 analizan las publicaciones en acceso abierto producidas por los proyectos, con análisis de costes, grado de cumplimiento de las políticas y análisis por áreas científicas y temáticas de programas (3) y datos estadísticos sobre el acceso abierto a los datos de investigación y grado de cumplimiento y análisis de los datasets producidos (4). Por cierto, para dar ejemplo, los datasets creados para realizar el estudio pueden ser descargados de https://zenodo.org/record/4899767.