Hem parlat amb la CristinaAzorin i el Juanan sobre les guies publicades només via Web (aquest curs, les dues de Sabadell).
La situació és la següent:
- No hi ha cap manera automàtica de saber quines pàgines són (o depenen de) la Guia de l'Estudiant d'una facultat concreta. No hi ha cap identificatiu en el Fatwire que ho permeti destriar, i fent-ho manualment és pràcticament impossible. Potser es pot fer per una o dues guies, però no per gaires més.
- Sembla ser que des de l'Àrea de Comunicació estan decidits a generalitzar aquesta via de publicació i eliminar els documents PDFs i en paper que s'han estat generant fins ara.
- Biblioteques consultarà amb altres àrees de la UAB per veure fins a quin punt hi ha la necessitat de generar els PDFs com fins ara.
De moment tenim aquest problema, relativament petit, però que és probable que es faci més gran. És a dir, que hauriem d'estudiar més a fons la captura de pàgines Web.
Pel que fa a unes poques pàgines, ara, amb la darrera versió del wget, ho tenim relativament bé. Pel que fa a webs senceres, amb [http://www.httrack.com httrack], també està força provat. Ara mateix tenim el problema de capturar un número important però indeterminat de pàgines.
Una opció possible que he estat pensant és utilitzar una captura de tot el portal (que de tota manera també pot ser útil per a la preservació) i donar un punt d'entrada per a cada facultat. Amb això estarem segurs que no ens en descuidem cap.
El Juanan el mes de desembre va fer una captura amb httrack i el resultat ocupa aproximandament 1 GB. Per comparació penseu que els PDFs dels Guions de Ràdio Barcelona, http://ddd.uab.cat/collection/guirad n'ocupen 26, o el Butlletí del Centre Excursionista de Catalunya http://ddd.uab.cat/record/27613, 2,5. És a dir, que és un tamany perfectament assumible pel DDD.
Com ho veueu? Altres idees i opcions?