OpenCitations: jaque a los índices de citas

Versió per a imprimirVersió per a imprimir

Antonio Eleazar Serrano-López
Departamento de Biblioteconomía y Documentación
Universidad Carlos III de Madrid


The OpenCitations Enhancement Project final report for the Alfred P. Sloan Foundation (2018). OpenCitations. Disponible en: <https://opencitations.wordpress.com/2019/01/02/opencitations-enhancement-project-final-report/>. [Consulta: 18/12/2019].


Las cuestiones que se tratan en este informe sobre el proyecto OpenCitations, no sólo resultan de gran interés para la evaluación de la actividad científica en general y los estudios métricos de información en particular, sino que han abierto uno de los mayores debates de la última década en el área, derivando incluso en la dimisión en bloque del comité editorial de una de las revistas más prestigiosas del área (Journal of informetrics) debido a la postura adoptada por su editorial (Elsevier) respecto a OpenCitations. Se trata, por tanto, de un informe que aborda cuestiones de gran interés y que merece ser leído con detenimiento, por lo que esta reseña pretende ser únicamente una puerta de entrada a su lectura.

El informe comienza con una descripción de los objetivos del OpenCitations Project que se pueden resumir en la creación de un corpus bibliográfico abierto y descargable que funcione además como índice de citas abierto, todo ello siguiendo la filosofía FAIR (findable, accessible, interoperable, reusable). A continuación, se centra en describir diferentes aspectos del proyecto, desde su situación actual hasta las publicaciones derivadas de él, la viabilidad del mismo y las conclusiones finales que sus creadores han extraído.

OpenCitations se encuentra en un proceso de expansión, ya que actualmente cuenta con dos corpus: el primero, llamado OpenCitations Index of Crossref (COCI) ha sido construido a partir de los datos de Crossref y el sistema Open-DOI y contiene la asombrosa cantidad de 450 millones de citas relativas a 46 millones de registros bibliográficos. Su segundo corpus, denominado OpenCitations Corpus (OCC) cuenta con más de 300.000 recursos bibliográficos que suponen, a su vez, un volumen cercano a 14.000.000 de citas, incluyendo el corpus completo de Europe Pubmed Central y el proyecto EXCITE (citas sobre Ciencias Sociales en editoriales alemanas), además de estar trabajando en la incorporación de otras fuentes de datos como arXiv. Teniendo en cuenta estos datos, no es de extrañar que algunas editoriales se puedan sentir amenazadas, especialmente aquellas que ofrecen, a su vez, productos comerciales basados en índices de citas.

Soportar este volumen de datos requiere de componentes de hardware y software muy equilibrados, pero parece que de momento eso no ha supuesto problemas. Desde octubre de 2018 cuenta con un nuevo servidor de datos y libera todos sus desarrollos de software a través de la plataforma GitHub, bajo una licencia permisiva como es ISC, con todo lo que ello supone respecto a la capacidad para detectar problemas y solucionarlos a través de los aportes de la comunidad de desarrolladores. 

Respecto al software, el informe expone los desarrollos y aplicaciones que se alimentan de ambos corpus y permiten su consulta y tratamiento, estando desarrollados fundamentalmente a partir de los estándares RDF y SPARQL. Además, en el informe se menciona una cuestión importante respecto a la gestión de las citas y es que durante el desarrollo del proyecto se detectó la necesidad de tratar las citaciones como entidades de primera clase, es decir, elementos con entidad propia que pudieran ser descritos, contados, procesados, agregados y, en definitiva, analizados mediante técnicas bibliométricas, para lo que era necesario contar con un identificador único para las citas, lo que sus creadores han dado en llamar «Open Citation Identifier» (OCI) y que, de hecho, ha sido ya reconocido por algunos investigadores como un identificador único y global de las citas bibliográficas.

El informe contiene también una breve descripción de cuáles son los usos que se le ha dado durante este tiempo a ambos corpus (OCC y COCI), usos que incluyen la interoperabilidad con Wikidata, alimentar la base de datos de OpenAIRE, así como diversos casos de uso e incorporación del modelo de datos OCC a soluciones de software tan extendidas como VOSviewer o Zotero. También recoge las estadísticas de uso de los sitios web del proyecto (incluyendo el blog en el que se publica el informe), así como una relación de las publicaciones, comunicaciones, posts y tweets derivados del mismo.

Finalmente, el informe señala una de las cuestiones más importantes, como es la viabilidad del proyecto a lo largo del tiempo. En este sentido, señalan sus autores que el objetivo final del proyecto es seguir ampliando la cobertura de OpenCitations en todas las áreas de conocimiento, hasta convertirlo en un producto tan útil o más que las alternativas comerciales de Clarivate Analytics y Elsevier, sin duda un objetivo ambicioso. Por otro lado, se señalan en este punto los desarrollos que se están llevando a cabo en el proyecto a nivel de interfaz de usuario, en colaboración con el CWTS de la Universidad de Leiden, sin duda uno de los aspectos en los que más debe mejorar el sistema. 

En cuanto a la viabilidad económica de OpenCitations, el informe destaca la negativa de sus desarrolladores a convertirlo en un producto comercial, por lo que se encuentran negociando la posibilidad de contar con financiación y soporte externo de alguna institución académica, indicando que se encuentran en negociaciones con dos instituciones, por lo que habrá que esperar para averiguar dónde recala finalmente el proyecto. En cualquier caso, parece que OpenCitations puede convertirse en un duro contendiente para los índices de citas de Clarivate Analytics y Elsevier.