Monitoritzant la política d’accés obert europea a H2020

Versió per a imprimirVersió per a imprimir

Tony Hernández-Pérez
Departamento de Biblioteconomía y Documentación
Universidad Carlos III de Madrid


Monitoring the open access policy of Horizon 2020: final report (2021). European Commission, Directorate-General for Research and Innovation. Luxembourg: Publications Office of the European Union. 118 p. Disponible a: <https://data.europa.eu/doi/10.2777/268348>. Consulta: [14/02/2022].


Horizon 2020 (H2020) va ser el programa de recerca i innovació de la Comissió Europea (2014-2020) que va invertir quasi 77 mil milions d’euros. Al programa H2020 l’ha succeït el programa Horizon Europa (95,5 mil milions d’euros de pressupost per al període 2021-2024). Una cop finalitzat H2020 s’està procedint a l’avaluació del programa. Aquest informe en particular està dedicat a l’anàlisi de la política d’accés obert dels projectes finançats en el dit programa. Convé recordar que els articles 29.2 i 29.3 del contracte, que s’havia de signar quan es concedien projectes H2020, estipulaven alguns requisits de compliment obligat per tal d’afavorir l’accés obert per a les publicacions i per a les dades de recerca produïts en aquests projectes finançats. 

La lectura d’aquest treball resulta molt interessant no només per a investigadors de política científica o d’accés obert sinó també per a bibliotecaris treballant amb repositoris i/o investigadors, ja que es fa una anàlisi de la metodologia utilitzada per mesurar l’accés obert, dels costos de publicació APC i recomanacions sobre com fer el seguiment del compliment de les polítiques d’accés obert orientades especialment a la Comissió Europea, però també molt aplicables als repositoris institucionals, particularment pel que fa referència a la vinculació amb la infraestructura OpenAIRE. 

Els resultats demostren que la inversió i l’aposta sobre l’accés obert ha valgut la pena i ha col·locat la Comissió Europea com a líder en política de ciència oberta. A l’anàlisi del treball es van identificar 218.558 publicacions úniques, no només articles, també literatura grisa, relacionades amb H2020, de les quals 154.185 van ser treballs revisats per experts. I s’estima que per al període 2014-2019 hi ha hagut una millora del 65 % al 83 % aproximadament en l’accés obert a publicacions científiques resultat dels projectes finançats. Les publicacions es van poder trobar en fonts obertes com ara OpenAIRE, Unpaywall, CrossRef, OpenAPC, DataCite, ORCID, DOAJ, re3data, per bé que la recerca es va complementar amb l’accés a bases de dades comercials com Web of Science o Scopus. 

Respecte de les publicacions en accés obert, el 50 % van ser editades per alguna de les tres grans editorials (Elsevier, Springer Nature, Wiley), i un altre 48 % per 17 editorials (MDPI, American Chemical Society, IOP, Royal Society of Chemistry, IEEE, Frontiers, etc). En termes de càrrecs per processament d’articles (APC), l’informe va fer una anàlisi de 86.767 articles publicats en accés obert «gold» (via daurada, de pagar per publicar) i es va concloure que el cost mitjà d’articles en accés obert en revistes «gold» ha esta d’uns 2.200 euros per article mentre que en revistes híbrides encara van ser més cars, 2.600 euros, la qual cosa pot servir per explicar per què excloure les revistes híbrides d’Horizon Europe, l’impulso de la Comissió Europea a la plataforma Open Research Europe (ORE) o el Pla S.

L’informe fa una anàlisi de les publicacions en accés obert per àrees de coneixement i per programes. I assenyala el programa Pilar d’Excel·lència com una història d’èxit en accés obert i, en particular, el programa European Research Council i el de Future and Emerging Technologies (FET). Per àrees de coneixement destaca el grau d’accés obert assolit en les publicacions sobre medicina i ciències de la salut (88%) i ciències naturals (82,8%). Les dades són similars a les trobades per altres agències finançadores de la recerca a Europa i els  EUA. 

L’informe proposa que per augmentar l’accés obert convindria també finançar Càrrecs per Processament de Llibres (BPC) fins i tot per a publicacions realitzades després del projecte, encara que el càlcul dels costos BPC segueix sent un repte. Si bé la base de dades d’OpenAPC ofereix dades fiables per al càlcul de costos d’articles, no es pot dir el mateix per al cas dels llibres o capítols de llibres ja que ni OpenAPC ni OAPEN recullen dades de forma sistemàtica o utilitzen fonts de dades suficientment fiables com per extrapolar valors. Només l’1,4% dels llibres o capítols de llibres «gold» d’H2020 es van poder trobar a la base de dades OpenAPC BPC.

 

 

 

 

 

 

 

 

 

 

Taula 1: Ràtio d’accés obert per domini científic (Frascati nivell 1)

El dipòsit de les publicacions mitjançant la via verda sembla estar ben assentada en els repositoris institucionals, més que en els de propòsit general: 75.129 publicacions es van dipositar en repositoris institucionals i 62.037 en repositoris temàtics o servidors preprint. I el 81,9 % de les publicacions via daurada també van ser dipositades en un repositori, cosa que indica que els investigadors comprenen bé la política de dipositar en els repositoris, encara que s’hagi publicat en obert en una revista. No obstant, el termini de dipòsit en els repositoris quan es publica mitjançant la via dorada encara es retarda aproximadament un any, la qual cosa indica que el dipòsit immediat mitjançant la via verda encara no s’està implementant bé.

Respecte de la reutilització, el 49 % dels treballs identificats d’accés obert es va publicar amb llicències Creative Commons (CC), amb diferents nivells de restriccions; el 33% va utilitzar llicències específiques dels editors, on s’estipulaven restriccions sobre el text i la mineria de dades (TDM) mentre que el 18% restant van ser publicacions, principalment, en repositoris institucionals on no constava cap tipus de llicència, cosa que es tradueix en una mena d’ús no legal per a propòsits de TDM, per exemple. 

 

Sobre dades de recerca

El grau de compliment i acceptació de l’accés obert per a les dades de recerca va tenir una taxa d’èxit del 95 %. Dels qui van optar per no participar en el pilot de dades (opt-out) de recerca oberts (ORDP) molts no van oferir raons específiques per quedar-se fora i algunes de les raons més al·legades van ser: la protecció de resultats (patents), la incompatibilitat del projecte amb la protecció de la privacitat de les dades o simplement perquè el projecte no generava dades.

Encara que es parli d’un 95 % de taxa d’èxit, l’informe reconeix que cal analitzar les dades amb precaució donat que cada comunitat científica utilitza diferents pràctiques respecte de les dades de recerca. Per exemple, ni tan sols el concepte de «data set» és el mateix per a totes les disciplines i mentre que en camps com ciències de la vida ja porten dècades construint infraestructures i recopilant dades en bases de dades, com GenBank o el Protein Data Bank, o recopilant llargs volums de dades procedents de sensors i permetent el seu accés via API, com SeaDataNet, en altres camps els grans repositoris amb prou feines existeixen o contenen metadades poc reutilitzables per poc informatius.

La producció de dades de recerca d’accés obert és més prominent en ciències naturals, seguit d’enginyeria i tecnologia, després medicina i ciències de la salut. No obstant, donat que els números encara són bastant baixos, la vinculació consistent de les publicacions als conjunts de dades que les sustenten, cosa que encara no és molt comuna, contribuirien en gran mesura a ajudar a avaluar el grau de compliment. La ràtio més alta d’accés obert per a dades de recerca (datasets) es va trobar en els projectes dels programes de salut, d’ infraestructures i, novament, en els del programa de l’European Research Council (ERC).

A penes el 39 % dels datasets que es van dipositar són trobables (Findability), perquè manca d’un URI vàlid i encara menys, el 32 %, són accessibles perquè ni tan sols tenien un URL vàlid així que només va ser possible avaluar la interoperabilitat d’aquest 32 %. Respecte dels datasets analitzats, 3.591 inclouen una llicència en les metadades del repositori on es van localitzar cosa que permet estimar un nivell mínim de compliment del 66,9 %. D’aquests, 3.492 datasets contenien llicències Creative Commons (CC), la majoria del tipus CC-BY i CC-BY-SA.  

 

Lliçons apreses

L’estudi identifica com un aspecte clau de la ineficiència del sistema de finançament sobre accés obert la manca de consciència i de coneixement per part dels investigadors, tant dels requisits sobre l’accés obert que s’exigien com de la manca de coneixement de rutes alternatives de publicació en accés obert.

Entre les troballes destaquen que els repositoris institucionals han respost bé al repte de modificar els seus processos interns i les seves metadades: el 95 % de les publicacions dipositades contenen algun tipus d’identificador persistent (PID) i el 73 % identifiquen amb claredat si es tracta de documents a text complet i poden ser recuperats a través dels protocols més comuns. Ans al contrari, els datasets en els repositoris presenten un baix nivell de compliment dels requisits exigits, només el 39% dels datasets identificats són trobables (per exemple, a les seves metadades els manca un PID i/o URL al fitxer de dades) i a penes el 32 % són accessibles fins i tot contenint un PID i/o URL.

Existeixen moltes àrees de millora en el procés de monitorització de les publicacions en accés obert, entre altres citen que: els repositoris no sempre proporcionen metadades claus. Per exemple, estatus de la revisió per experts dels articles, dates d’enviament, publicació o versió, la informació sobre els projectes i les dades dels beneficiaris d’aquests projectes són en molts casos de baixa qualitat, per manca de consistència i rigor en la política d’entrada de dades entre editors i repositoris. 

I el que és pitjor, els autoinformes dels beneficiaris dels projectes en el portal corresponent de la Comissió Europea presenten nombrosos problemes per poder comprovar si compleixen amb els requisits de la mateixa Comissió o no: molts d’ells no informen de les publicacions, quan informen a vegades estan mancats de metadades bàsiques com el DOI o altre identificador vàlid, no es proporciona informació sobre els períodes d’embargament o es poc clara i amb els datasets molts cops ni s’indiquen quines eines i instruments calen per a la validació de resultats.

Quant a les dades de recerca, l’informe identifica problemes seriosos pel que fa a la manca d’habilitats de gestió de dades i coneixement entre els beneficiaris dels projectes. Sovint, no són metòdics ni distingeixen quins tipus de dades obrir (bruts vs anotats vs processats); o no saben quina documentació ha de ser inclosa juntament amb les dades o quina regulació de protecció de dades s’ha d’aplicar. Els plans de gestió de dades (DMP) acostumen a ser molt rudimentaris perquè els investigadors no comprenen alguns principis bàsics, com els principis FAIR. A més, els datasets tendeixen a ser molt grans i complexos i emmagatzemar-los i preservar-los de forma oberta i accessible requereix gran capacitat d’espai i personal qualificat, cosa que pot suposar una càrrega financera significativa per als equips de recerca.

L’informe mereix una lectura tranquil·la. S’estructura en set parts: una introducció (1), un apartat d’annexos (7) i uns altres cinc d’on caldria destacar l’apartat de la metodologia general que s’ha seguit a l’estudi (2), l’anàlisi de les deficiències del sistema de monitorització d’accés obert (5) i el de les lliçons apreses (6) on s’analitza l’eficàcia i l’eficiència de les polítiques d’accés obert engegades per la Comissió per al programa H2020 i on s’ofereixen moltes idees i metodologies d’aspectes a millorar dels repositoris i de la integració en OpenAire a partir del que s’ha après a l’estudi. Els apartats 3 i 4 analitzen les publicacions en accés obert produïdes pels projectes, amb anàlisi de costos, grau de compliment de les polítiques i anàlisi per àrees científiques i temàtiques de programes (3) i dades estadístiques sobre l’accés obert a les dades de recerca i grau de compliment i anàlisi dels datasets produïts (4). Per cert, per donar exemple, els datasets creats per realitzar l’estudi es poden descarregar de https://zenodo.org/record/4899767.

© Imatge inicial de Gerd Altmann a Pixabay