La funció dels arxius web

Versió per a imprimirVersió per a imprimir
Ciro Llueca
Coordinador del PADICAT (Patrimoni Digital de Catalunya)
Biblioteca de Catalunya
 

D-Lib Magazine, The magazine of digital library research (March-April 2012, vol 18). ISSN:1082-9873 <http://www.dlib.org/dlib/march12/03contents.html> [Consulta: 25/04/2012].

El D-Lib Magazine és una imprescindible publicació professional d'accés obert centrada en la recerca i el desenvolupament de biblioteques digitals. De caracter bimestral, és gestionada per la Corporation for National Research Initiatives (CNRI), una institució estatunidenca sense ànim de lucre. La subscripció és altament recomanable per les persones que treballem en serveis d'informació digitals, i cada número conté experiències gens teòriques que s'estan duent a terme a tot el món.

El número de març-abril conté una selecció de tres articles professionals sobre l'arxiu de les pàgines web d'Internet, precedits d'una breu reflexió editorial de Laurence Lannom (CNRI), en la qual es justifica la selecció dels articles, basada en un enfocament pràctic (per a què serveixen els arxius web?) més que no pas en els fonaments tècnics que els fan possible (com funcionen?).

El primer dels articles, "Web archiving for researchers: representations, expectations and potential uses", de Peter Stirling, Philippe Chevallier, i Gildas Illien, de la Bibliothèque nationale de France, és una aproximació a les funcionalitats d'un arxiu web escrit per un dels equips europeus més potents, creat el 2008. L'arxiu web francès, en fase de consulta pública encara experimental, manté un alt nivell de recerca aplicada, i l'article és el resultat d'un estudi qualitatiu de 2011 que pretenia detectar necessitats de continguts i serveis en el públic potencial1. L'article vol sintetitzar les diferents idees obtingudes en les entrevistes a cinc investigadors: com defineixen Internet, què fan per preservar amateurment els continguts web, què demanarien a un arxiu web competent. No per naïf el resultat té menys vàlua: els entrevistats en aquest Delphy consideren Internet només un punt de partida per a la seva recerca ("a lot of blabla", resumeix genialment un dels enquestats); empren eines per a estar al dia (xarxes socials, bàsicament); elaboren les seves pròpies solucions per la preservació dels continguts en línia (impressió en paper, descàrrega en disc dur); reconeixen la necessitat d'arxivar el que es publica a Internet tot i ser-ne conscients de les dificultats tècniques i de selecció de recursos; i assenyalen com activitat beneficiosa per a la recerca la descripció avançada dels recursos dipositats (anàlisi d'enllaços, estructura de la web, estadístiques). Poques novetats en l'estudi francès, certament, malgrat que els titulars no perden vigència: Un, és impossible preveure què tindrà interès professional o amateur, però és legítim cert grau de selecció del que es vol capturar d'Internet. Dos, la política de selecció ha d'estar justificada, documentada i publicada. Tres, cal cooperar i comunicar.

Els dos articles que completen aquest número de D-Lib són obra de Jinfang Niu, professora de la University of South Florida, que realitza una panoràmica sobre els sistemes d'arxiu web a "An overview of web archiving"; i una guia d'avaluació qualitativa a "Functionalities of web archives". La Dra. Niu ha realitzat una tasca sistemàtica en la preparació d'un curs universitari sobre arxiu de la web (de les 32 facultats d'informació i documentació millors situades als rànquings dels EUA el 2010, només a una existia una assignatura sobre el que ens ocupa), i els articles que ressenyem són fruits de la seva recerca prèvia.

En el primer dels textos de Niu es realitza una aproximació al que anomenem arxius web, amb una sintètica explicació i exemples dels processos de selecció dels recursos web a preservar, la captura, l'organització i emmagatzegament, la descripció i ús de metadades; i l'accés i ús dels arxius web. Tal com s'ha fet a bastament amb anterioritat (el pioner Julien Masanés va publicar un llibre imprescindible2, i en clau local existeix una panoràmica de l'any 20053) es descriu les polítiques de selecció més habituals (per domini; per temàtica o esdeveniment; per tipus de fitxer) i els avantatges i inconvenients de cada cas: lògicament, una aproximació més biblioteconòmica, basada en una selecció de recursos, obligarà als equips a determinar una política de selecció on el component humà tindrà un pes específic important. Per contra, una selecció basada en criteris objectius (domini, per exemple), serà fàcilment automatitzable. Niu descriu els mètodes d'adquisició (captura a partir d'un llistat inicial d'adreces URL, amb o sense permís del propietari del copyright de la web, respectant o no els fitxers robots.txt, amb mandat legal o estratègic de la institució que gestiona el robot de captura); els sistemes d'emmagatzematge (rèplica de la web capturada en arquitectura local, arxius en el núvol); les accions en la descripció bibliogràfica (extracció automàtica de metadades, ús de Dublin Core); i les possibilitats d'accés dels recursos dipositats (segons l'ecosistema legal on es trobi ubicat el servei: accés obert vs. accés restringit). La conclusió és que no hi ha dos arxius web iguals: el context legal, la relació de l'arxiu web amb els productors de les pàgines web, la capacitat tècnica i financera, etc. Els factors externs sempre condicionen.

En el següent article la Dra. Niu realitza una anàlisi basada en un útil "check list" que pot esdevenir eina de control de qualitat. L'estudi obvia la majoria d'arxius web europeus i asiàtics i se centra només en sistemes anglosaxons: EUA, Regne Unit, Austràlia i Nova Zelanda. Són referents mundials, per la qual cosa l'anàlisi, malgrat que parcial, no perd vigència. La metodologia contempla les típiques qüestions de cerca i visualització de resultats que afecten tot tipus de repositoris4, i guanya interés quan apunta idees, noves o no, que aporten valor afegit: integració dels arxius web en els catàlegs de les biblioteques, publicació mensual de captures, data mining, serveis de reconstrucció de pàgines web perdudes, etc. L'article de Niu és un bon punt de partida si algú està pensant en crear el seu propi arxiu web, o bé vol contrastar la seva propia eina amb el que hom considera bones pràctiques.

L'anàlisi dels tres articles deixa un regust agredolç. És una bona notícia que l'imprescindible D-Lib Magazine dediqui un número pràcticament monogràfic a una qüestió que afecta un grup molt reduït de professionals: a Espanya no som més d'una dotzena de persones les que ens hi dediquem, comptant els equips de Mar Pérez a la BNE; de Francisca Pulgar al projecte basc Ondarenet; i del PADICAT, a Catalunya. Amb l'imminent desplegament per reial decret de la llei espanyola 23/2011 del dipòsit legal aquest nombre haurà de crèixer, i personalment confio que les biblioteques nacionals d'Iberoamèrica puguem algun dia sumar esforços de present per al futur. Però seria trair l'esperit científic del Blok de Bid no fer aportacions crítiques a la ressenya que ens ocupa. En el nostre sector i possiblement en la resta es produeixen abudants textos científico-professionals que no sempre aporten novetats a l'estat de la qüestió: el primer dels articles n'és un exemple. Per això, recomano als interessats en el tema completar la lectura del text amb altres estudis recents5. D'altra banda, parlar d'arxius web avui i no anomenar el projecte Memento és com parlar d'Internet sense mencionar la World Wide Web. Tot i ser encara experimental, Memento, pilotat pel visionari Van der Sompel és probablement "La Funcionalitat" per excel·lència dels arxius web: no cap altra que integrar-los en els serveis de cerca estàndard, com Google, per oferir als usuaris la possibilitat d'accedir a la informació en línia també amb la dimensió temporal.


1. CHEVALIER, P.; G. ILLIEN (2011). "Les archives de l'Internet: une etude prospective sur les representations et les attentes des utilisateurs potentials". Paris : Bibliothèque nationale de France. http://www.bnf.fr/documents/enquete_archives_web.pdf

2. MASANES, J. (ed.) (2006). Web archiving. Berlin: Springer. http://www.springerlink.com/content/978-3-540-23338-1#section=416768&page=1&locus=22

3. LLUECA, C. (2005). "Webs sempre accessibles : les biblioteques nacionals i els dipòsits digitals nacionals". BiD: textos universitaris de biblioteconomia i documentació, desembre, núm. 15. http://www.ub.edu/bid/15lluec1.htm

4. Per citar dos magnífics exemples locals: BARRUECO, J. M. (et al.) (2010). "Guía para la evaluación de repositorios institucionales de investigación" (v. 1.0, diciembre 2010). Madrid : Fundación Española para la Ciencia y la Tecnología (FECYT) ; Red de Bibliotecas Universitarias (REBIUN). http://www.recolecta.net/buscador/documentos/GuiaEvaluacionRecolectav1.0.... SULÉ, A.; A. ESTIVILL; J. GASCÓN (2011). "Interfaces de consulta en las colecciones digitales patrimoniales españolas". Anales de documentación, vol. 14, núm. 2. http://revistas.um.es/analesdoc/article/download/113931/124971

5. MEYER, E.; A. THOMAS; R. SCHROEDER (2011). "Web archives: the future(s)". International Internet Preservation Consortium. http://dx.doi.org/10.2139/ssrn.1830025; COSTA, M.; M. J. SILVA (2010). "Understanding the information needs of Web archive users". Vienna : 10th International Web Archiving Workshop. http://iwaw.europarchive.org/10/IWAW2010.pdf; o bé l'informe inèdit, de 2010, mencionat per A. Spencer i T. Storrar, de The National Archives (Regne Unit), al taller "The future of the past of the web" (Londres, octubre 2011), organitzat per la British Library, la Digital Preservation Consortium i el JISC (Joint Information Systems Committee). http://www.dpconline.org/newsroom/not-so-new/744-the-future-of-the-past-of-the-web-london-7th-octber-2011