La función de los archivos web

Versió per a imprimirVersió per a imprimir
Ciro Llueca
Coordinador del PADICAT (Patrimoni Digital de Catalunya)
Biblioteca de Catalunya
 

D-Lib Magazine, The magazine of digital library research (March-April 2012, vol 18). ISSN:1082-9873 <http://www.dlib.org/dlib/march12/03contents.html> [Consulta: 25/04/2012].

El D-Lib Magazine es una imprescindible publicación profesional de acceso abierto centrada en la investigación y el desarrollo de bibliotecas digitales. De carácter bimestral, está gestionada por la Corporation for National Research Initiatives (CNRI), una institución estadounidense sin ánimo de lucro. La suscripción es altamente recomendable para las personas que trabajamos en servicios de información digitales, y cada número contiene experiencias en absoluto teóricas que se están llevando a cabo en todo el mundo.

El número de marzo-abril contiene una selección de tres artículos profesionales sobre el archivo de las páginas web de Internet, precedidos de una breve reflexión editorial de Laurence Lannom (CNRI), en la que se justifica la selección de los artículos, basada en un enfoque práctico (¿para qué sirven los archivos web?) más que en los fundamentos técnicos que los hacen posible (¿cómo funcionan?).

El primero de los artículos, "Web archiving for researchers: Representations, expectations and potential uses", de Peter Stirling, Philippe Chevallier, y Gildas Illia, de la Bibliothèque nationale de France, es una aproximación a las funcionalidades de un archivo web escrito por uno de los equipos europeos más potentes, creado en 2008. El archivo web francés, en fase de consulta pública aún experimental, mantiene un alto nivel de investigación aplicada, y el artículo es el resultado de un estudio cualitativo de 2011 que pretendía detectar necesidades de contenidos y servicios en el público potencial1. El artículo quiere sintetizar las diferentes ideas obtenidas en las entrevistas a cinco investigadores: cómo definen Internet, qué hacen para preservar de forma amateur los contenidos web, qué pedirían a un archivo web competente. No por naïf el resultado tiene menos valor: los entrevistados en este Delphy consideran Internet sólo un punto de partida para su investigación ("a lot of blabla", resume genialmente uno de los encuestados); emplean herramientas para estar al día (redes sociales, básicamente); elaboran sus propias soluciones para la preservación de los contenidos en línea (impresión en papel, descarga en disco duro); reconocen la necesidad de archivar lo que se publica en Internet a pesar de ser conscientes de las dificultades técnicas y de selección de recursos; y señalan como actividad beneficiosa para la búsqueda la descripción avanzada de los recursos depositados (análisis de enlaces, estructura de la web, estadísticas). Ciertamente, pocas novedades en el estudio francés, a pesar de que los titulares no pierden vigencia: Uno, es imposible prever qué tendrá interés profesional o amateur, pero es legítimo cierto grado de selección de lo que se quiere capturar de Internet. Dos, la política de selección tiene que estar justificada, documentada y publicada. Tres, es necesario cooperar y comunicar.

Los dos artículos que completan este número de D-Lib son obra de Jinfang Niu, profesora de la University of South Florida, que realiza una panorámica sobre los sistemas de archivo web en "An overview of web archiving", y una guía de evaluación cualitativa en "Functionalities of web archives". La Dra. Niu ha realizado una labor sistemática en la preparación de un curso universitario sobre archivo de la web (de las 32 facultades de información y documentación mejores situadas en los ranking de EEUU en 2010, solo en una existía una asignatura sobre lo que nos ocupa), y los artículos que reseñamos son frutos de su investigación previa.

En el primero de los textos de Niu se realiza una aproximación a lo que llamamos archivos web, con una sintética explicación y ejemplos de los procesos de selección de los recursos web a preservar: la captura, la organización y almacenamiento; la descripción y uso de metadatos; y el acceso y uso de los archivos web. Tal como se ha hecho sobradamente con anterioridad (el pionero Julien Masanés publicó un libro imprescindible2, y en clave local existe una panorámica del año 20053) se describe las políticas de selección más habituales (por dominio; por temática o evento, por tipo de archivo) y las ventajas e inconvenientes de cada caso: lógicamente, una aproximación más biblioteconómica, basada en una selección de recursos, obligará a los equipos a determinar una política de selección donde el componente humano tendrá un peso específico importante. Por el contrario, una selección basada en criterios objetivos (dominio, por ejemplo), será fácilmente automatizable. Niu describe los métodos de adquisición (captura a partir de un listado inicial de direcciones URL, con o sin permiso del propietario del copyright de la web, respetando o no los ficheros robots.txt, con mandato legal o estratégico de la institución que gestiona el robot de captura), los sistemas de almacenamiento (réplica de la web capturada en arquitectura local, archivos en la nube), las acciones en la descripción bibliográfica (extracción automática de metadatos, uso de Dublin Core) y las posibilidades de acceso de los recursos depositados (según el ecosistema legal donde se encuentre ubicado el servicio: acceso abierto vs. acceso restringido). La conclusión es que no hay dos archivos web iguales: el contexto legal, la relación del archivo web con los productores de las páginas web, la capacidad técnica y financiera, etc. Los factores externos siempre condicionan.

En el siguiente artículo la Dra. Niu realiza un análisis basado en un útil "check list" que puede convertirse en herramienta de control de calidad. El estudio obvia la mayoría de archivos web europeos y asiáticos y se centra solo en sistemas anglosajones: EEUU, Reino Unido, Australia y Nueva Zelanda. Son referentes mundiales, por lo que el análisis, aunque parcial, no pierde vigencia. La metodología contempla las típicas cuestiones de búsqueda y visualización de resultados que afectan a todo tipo de repositorios4, y gana interés cuando apunta ideas, nuevas o no, que aportan valor añadido: integración de los archivos web en los catálogos de las bibliotecas, publicación mensual de capturas, data mining, servicios de reconstrucción de páginas web perdidas, etc. El artículo de Niu es un buen punto de partida si alguien está pensando en crear su propio archivo web, o bien quiere contrastar su propia herramienta con lo que se considera buenas prácticas.

El análisis de los tres artículos deja un sabor agridulce. Es una buena noticia que el imprescindible D-Lib Magazine dedique un número prácticamente monográfico a una cuestión que afecta a un grupo muy reducido de profesionales: en España no más de una docena, contando los equipos de Mar Pérez en la BNE; de Francisca Pulgar en el proyecto vasco Ondarenet, y del PADICAT, en Cataluña. Con el inminente despliegue por real decreto de la ley española 23/2011 del depósito legal este número deberá crecer, y personalmente confío en que las bibliotecas nacionales de Iberoamérica podamos algún día sumar esfuerzos de presente para el futuro. Pero sería traicionar el espíritu científico de Blok de Bid no hacer aportaciones críticas a la reseña que nos ocupa: en nuestro sector y posiblemente en el resto se producen abundantes textos científico-profesionales que no siempre aportan novedades en el estado de la cuestión. El primero de los artículos es un ejemplo. Por ello, recomiendo a los interesados ​​en el tema completar la lectura del texto con otros estudios recientes5. Por otra parte, hablar hoy de archivos web y no mencionar el proyecto Memento es como hablar de Internet sin mencionar la World Wide Web. Pese a ser todavía experimental, Memento, pilotado por el visionario Van der Sompel, es probablemente "La Funcionalidad" por excelencia de los archivos web: integrarlos en los servicios de búsqueda estándar, como Google, para ofrecer a los usuarios la posibilidad de acceder a la información en línea también con la dimensión temporal.


1. CHEVALIER, P.; G. ILLIEN (2011). "Les archives de l'Internet: une étude prospective sur les representations et les attentes des utilisateurs potentials". Paris : Bibliothèque nationale de France. http://www.bnf.fr/documents/enquete_archives_web.pdf

2. MASANES, J. (ed.) (2006). Web archiving. Berlin: Springer. http://www.springerlink.com/content/978-3-540-23338-1#section=416768&page=1&locus=22

3. LLUECA, C. (2005). "Webs siempre accessibles : las bibliotecas nacionales y los depósitos digitales nacionales". BiD: textos universitaris de biblioteconomia i documentació, diciembre, núm. 15. http://www.ub.edu/bid/15lluec2.htm

4. Por citar dos magníficos ejemplos locales: BARRUECO, J. M. (et al.) (2010). "Guía para la evaluación de repositorios institucionales de investigación" (v. 1.0, diciembre 2010). Madrid : Fundación Española para la Ciencia y la Tecnología (FECYT) ; Red de Bibliotecas Universitarias (REBIUN). http://www.recolecta.net/buscador/documentos/GuiaEvaluacionRecolectav1.0.... SULÉ, A.; A. ESTIVILL; J. GASCÓN (2011). "Interfaces de consulta en las colecciones digitales patrimoniales españolas". Anales de documentación, vol. 14, núm. 2. http://revistas.um.es/analesdoc/article/download/113931/124971

5. MEYER, E.; A. THOMAS; R. SCHROEDER (2011). "Web archives: the future(s)". International Internet Preservation Consortium. http://dx.doi.org/10.2139/ssrn.1830025; COSTA, M.; M. J. SILVA (2010). "Understanding the information needs of Web archive users". Vienna : 10th International Web Archiving Workshop. http://iwaw.europarchive.org/10/IWAW2010.pdf; o bien el informe inédito, de 2010, mencionado por A. Spencer i T. Storrar, de The National Archives (Regne Unit), en el taller "The future of the past of the web" (Londres, octubre 2011), organizado por la British Library, la Digital Preservation Consortium y el JISC (Joint Information Systems Committee). http://www.dpconline.org/newsroom/not-so-new/744-the-future-of-the-past-of-the-web-london-7th-octber-2011