1. Actuacions de preservació¶
El nivell òptim de preservació seria el 3,2,1; almenys tres còpies d'un fitxer, dues en lloc diferents i una físicament fora de la institució. Aquesta regla s'està complint actualment amb el Dipòsit Institucional (clariion), es a dir, amb els fitxers de consulta del DDD, però no amb tots els fitxers continguts al Dipòsit de digitalització (anomenat Volum-i. En la seva majoria, fitxers màsters del projectes de digitalització).
La preservació serà més fàcil i menys costosa si tenim documents en pocs formats i/o formats estandarditzats, si la UAB és la titular dels drets (com el cas de les revistes publicades pel Servei de Publicacions) o si el dipòsit pot exercir control des de l'inici del seu cicle vital (per exemple, amb les guies docents).
És molt difícil que un sistema pugui complir amb tots els requeriments de preservació digital, per això el que fem és combinar un seguit d’estratègies a mig termini. Generalment les dades sobreviuen a les aplicacions, i del que es tracta no és tant de fer grans aplicacions sinó d'emprar unes polítiques a les dades, que siguin tan independents del programari com sigui possible. I no es tracta tant d'aplicar-les totes sinó d'aplicar-ne les que tinguin més sentit en cada cas.
El sistema, un EMC Clariion, ofereix tota mena de garanties de redundància i fiabilitat. Les còpies de seguretat, incloses les que es guarden fora de les instal·lacions de la universitat, segueixen els mateixos circuits que els de la resta de la UAB.
Les dades de la cabina primària es repliquen totes a la secundaria, no es fan excepcions per estar més protegits davant possibles pèrdues de dades. La part del Servei de Biblioteques es fa sobre disc 'lent', es replica de forma asíncrona per no tenir una afectació en el rendiment.
Amb la mateixa idea d'estar més protegits davant potencials pèrdues de dades s'implementen polítiques de snapshot de cabina tant a primari com a secundari. A primari es fan snaps cada 2 hores (de 8h a 22h, sinó recordo malament) amb retenció 24h. Per recuperació local ràpida i pels casos on pugui aplicar. A secundària es fan 2 snaps diaris amb retenció 7 dies, pels casos de pèrdua total de dades a primari.
Teniu una altra còpia sobre ISILON amb discs accessibles per NFS.
En quant a backup sobre els DataDomains només es realitza la part del DDD, que és un NFS (també replicat i amb polítiques similars de snapshot) i el volum històric. No es fan backup dels tiffs.
El total de disc dedicat a biblioteques és:
Cabina primaria:- Bloc 48 TB + 2 TB espai snap
- DDD (NFS): 2 TB
- Rèplica Bloc 48 TB + 2 TB espai snap
- Rèplica DDD (NFS): 2TB
- Segona copia Bloc: 48T B
- DDD (NFS): 2 TB amb retenció 6 setmanes
- FS Històric (BLOC): 2TB amb retenció 4 setmanes
- Disc dedicat a TIFFS: 148 TB
- Disc dedicat a DDD: 4 TB
- Disc dedicat a backup: 4 TB + retenció que no es pot calcular per la deduplicació.
Algunes de les nostres actuacions estan basades en els Curation Micro-services de la California Digital Library (https://confluence.ucop.edu/display/Curation/Microservices). En concret, el DDD aplica:
- Namaste (NAMe AS TExt) és una convenció de nomenclatura d'arxiu per donar etiquetes de metadades a nivell de directori. Les etiquetes Namaste es mostren a cada directori (e.g., Linux 'ls') (https://confluence.ucop.edu/display/Curation/Namaste). Tot el que tenim al Dipòsit de digitalització (volum-i) està catalogat al DDD. Per tant, hauria de tenir un únic registre. En concret, a més dels camps 1=autor, 2=títol, 3=data, el 4=identificador apunta (amb un enllaç) al número de registre del DDD. Això permet que des de la interfície de consulta http://volum-i.uab.cat/ sigui possible cercar fitxers o directoris per número de registre del DDD. La creació dels fitxers namaste es fa automàticament.
- Fitxers auxiliars. Per a cada fitxer (objecte digital) al DDD i al Dipòsit de digitalització tenim dos o més fitxers auxiliars: un .info, on hi desem les metadades tècniques extretes automàticament per programa (md5 i sha1, i altres característiques de la imatge o del PDF), i una miniatura en .ico. Es generen una miniatura en format .png i una altra en .giff (en moviment), i també un fitxer .txt amb el text del document, quan és de naturalesa textual.
- La preservació ha de garantir l'accés al document al llarg del temps. Per garantir aquesta accessibilitat el DDD ha implementat un sistema robust de control de versions (git) que també permet fer rèpliques dels fitxers.
El DDD admet qualsevol tipus de format però per a la gestió dels fitxers i per a la preservació s’utilitzaran formats oberts (pdf sobre word, per exemple) i s’unificaran tipologies. Podeu consultar els tipus de fitxers del DDD a https://ddd.uab.cat/usage.py?c=ddd&report=contents
Per adoptar un format de preservació cal que les especificacions d’aquest format siguin accessibles obertament i que no estigui subjecte a drets de propietat intel·lectual, patents o altres drets. Els formats recomanats són: pdf per a text; jpg per a imatges; mp3 per a àudio; flash per a vídeo.
Es conserva una còpia de l’arxiu en el seu format original per si calgués recórrer a aquest format en cas d’haver de fer alguna transformació al llarg del temps.
No podem garantir que la conversió d’un document a format obert permeti conservar totes les característiques i informació del document original. Es farà, però, el possible per a que el document resultant sigui el més similar possible a l’original i, en tot cas, es respectarà la intencionalitat de l’original i el seu contingut essencial. S’utilitzarà sempre la millor tecnologia de conversió de que es pugui disposar i es farà conversió dels documents als millors formats de preservació que es vagin desenvolupant.
Una estratègia clara de preservació és la rèplica d’algunes de les col·leccions en els dipòsits del Consorci de Serveis Universitaris de Catalunya, no només es fa una exportació de les metadades descriptives sinó que es permet conservar una rèplica dels fitxers. Així, per exemple, totes les revistes editades per la Universitat es troben duplicades (metadades i pdfs) al DDD i a RACO (Revistes Catalanes amb Accés Obert). Emmagatzematge distribuït com a garantia que almenys no es perdi, corrompi o sigui inaccessible una còpia única dels documents.
La Universitat Autònoma de Barcelona està disposada a col·laborar amb altres institucions per compartir coneixements sobre el desenvolupament d’eines, formats i procediments de preservació; contribuir a l’avenç en el camp de la preservació digital i optimitzar recursos. Això es podria concretar en una proposta d'establiment d'un sistema de preservació per rèpliques a nivell del CSUC (tipus LOCKSS).
2. Model OAIS¶
Cal definir la totalitat del model de gestió OAIS (entitats, fluxos de treball i estratègies) d'una arquitectura i d'uns serveis que permetin enfrontar-se al repte de la gestió integral de fitxers digitals.
El model OAIS (Open Archival Information System) es va elaborar pel Consultative Committee for Space Data Systems de la NASA. Posteriorment s’ha convertit en l’estàndard ISO 14721:2003 i és el model que estan adoptant diferents institucions que tenen la missió explícita de preservar informació, sigui del tipus que sigui.
El model OAIS descriu sis grans blocs de processos:
1. Ingesta de fitxers (SIP), procediment d'acceptació, preparació del contingut, comprovacions de qualitat i autenticitat...
2. Emmagatzemament (AIP), serveis i funcions que han de permetre l'emmagatzematge, el manteniment i la recuperació dels fitxers.
3. Gestió de dades (AIP), incorporació, manteniment i accés a les metadades descriptives i administratives.
4. Accés (DIP), serveis i funcions que donen suport als usuaris per a l'accés als documents.
5. Preservació, en quan a polítiques que cal seguir
6. Servei tècnic per a tots els processos
El circuit es divideix en tres parts: entrada o ingesta, gestió i emmagatzemament, i consulta, que explicarem a continuació.
Paquet d'informació lliurat (SIP)¶
Les informacions que arriben són les metadades descriptives i un o més fitxers, generalment el paquet es correspon a un sol registre del DDD. La ingesta i els tipus de publicacions admesos venen determinats per les diferents polítiques i procediments del dipòsit que determinen la tria de materials, els drets de propietat intelectual, etc. Depenent de l'eina d'entrada hi ha uns processos formals associats
- En el cas dels formularis i l’autoarxiu es fa control de formats manual. Recomanació de lliurar fitxers en formats oberts i majoritàriament en pdf. Normalització manual dels noms dels fitxers segons la normativa interna. També es fa una normalització automàtica de caràcters estranys: punts, espais... Les metadades més els fitxers generen un fitxer temporal en format tar.gz (com un zip), que es publiquen (oberts o restringits) cada 15 minuts.
- Per a la càrrega des de serveis externs es fan servir diferents procediments i protocols, preferentment el protocol d'entrada hauria de ser l'OAI; en el cas del catàleg es fa per importació-exportació de fitxers (ISO 2709). Generalment es dóna en dues fases, en una primera es carreguen les metadades i en una segona fase els fitxers. En alguns casos les metadades i els fitxers arriben conjuntament, per exemple, en el cas de les càrregues de les guies docents, on està tan relacionat que fins i tot hi ha algunes metadades que s'extreuen dels noms del fitxers i de les propietats del pdf. No es fa control de formats manual, ni automàtic. Hi ha la recomanació de pujar els fitxers en formats oberts i majoritàriament en pdf. Normalització automàtica dels noms dels fitxers, no segons la normativa interna, sinó només per a eliminar caràcters problemàtics (punts, accents, espais...).
En aquest cas, si no es carreg directament del catàleg, es fa un mapeig de les metadades del format Dublin Core o altre a Marc21. - La ingesta dels projectes de digitalització es caracteritza per ser únicament de fitxers, sense metadades descriptives ni tècniques, generalment en discos durs i en dos formats, tiff i pdf o jpg. El control de formats ve donat per les especificacions donades al proveïdor que digitalitza el material. Normalització dels noms dels fitxers segons la normativa interna. Aquests noms queden recollits en els procediments que es demanen a les empreses i són establerts per la Biblioteca. Manualment es fa un mostreig de la qualitat de la digitalització, a partir dels discs durs. L'entrada de metadades arriba en un segon procés d'ingesta. Les metadades descriptives es generen amb posterioritat a la descàrrega i poden venir per diferents circuits: còpies de registres del catàleg, còpies de registres del DDD, entrada de dades a partir d'una font externa (base de dades, llistats csv...), etc.
Paquet d'informació d'arxiu (AIP)¶
Les AIP són unitats d'arxiu, en el cas del DDD seria una unitat per directori; pot haver unes unitats petites, com articles de revista, o números sencers en el cas de les revistes de la UAB, o anys en el cas dels cartells polítics.
A l'*aplicació del DDD*, dins la màquina Homs, es fa:
- Es crea el registre bibliogràfic ric (per exemple, s'afegeixen les etiquetes 773).
- Es crea l'etiqueta 856 amb l'enllaç.
- Editor de metadades, per a la modificació de metadades disposem de la possibilitat d'editar les metadades descriptives en Marc21.
- Es creen els fitxers .info amb les metadades administratives.
- Es genera el fitxer de paritat par2. Fitxer extra amb redundància d'un o més fitxers (típicament un 10%). Si algun fitxer es corromp es pot recuperar fins al 10% de tots els fitxers.
- Generació md5 de tots els fitxers de tots els discos.
- Aquests fitxers complementaris permeten generar estadístiques de contingut: número total de fitxers en els diferents formats, números de pàgines (es pot veure la correspondència entre pdf i tiff per la digitalització), extracció del text de l'OCR per comprovar la qualitat, generació de miniatures. Aquestes estadístiques ajuden a fer els controls de qualitat.
- Es generen les metadades Namaste, un fitxer amb 4 dades (1=autor - 2=títol - 3=data - 4=identificació).
- En alguns casos els fitxers de consulta pels usuaris no es troben al sistema clariion fins que no es poden relacionar amb un registre bibliogràfic. Seria el cas de les digitalitzacions, amb els fitxers al Dipòsit de digitalització o l'entrada directa dels professors que quedaria en un directori de revisió al disc local (màquina Homs).
- El control de versions (git) permet la traçabilitat i recuperació de metadades administratives i fitxers. Pot actuar com a còpia de seguretat perquè es fan còpies diàries, una justament dins del mateix Dipòsit Institucional (clariion), i 5 còpies dins del Dipòsit de digitalització (volum-i).
- Còpies de seguretat del sistema clariion. Es fa una còpia al dia i la primera i la segona còpia en discos virtuals. Es fa un clon de tots els discos de la UAB i un cop al mes s'envien fora de la UAB.
- En el cas dels projectes de digitalització l'AIP es realitza en primer lloc al Dipòsit de digitalització, bàsicament perquè volem conservar el format tiff que no és de consulta i necessitem eines que relacionin els documents del Dipòsit de digitalització amb els del Dipòsit Institucional.
- Es creen els fitxers .info amb les metadades administratives.
- Es genera el fitxer de paritat par2. Fitxer extra amb redundància d'un o més fitxers (típicament un 10%). Si algun fitxer es corromp es pot recuperar fins al 10% de tots els fitxers.
- Generació md5 de tots els fitxers de tots els discos.
- Amb aquestes tres accions complementàries es permet generar estadístiques de contingut: número total de fitxers en els diferents formats, números de pàgines (es pot veure la correspondència entre pdf i tiff per la digitalització), extracció del text de l'OCR per comprovar la qualitat, generació de miniatures. Aquestes estadístiques ajuden a fer els controls de qualitat.
- Creació de la còpia de seguretat al segon Dipòsit de digitalització (volum-ib). No hi ha més còpies de seguretat, ni dins, ni fora del campus.
- Exportació dels fitxers de consulta (pdf o jpg) al sistema clariion, en el moment de crear els registres bibliogràfics.
- Al final, quan ja tenim els registres bibliogràfics, es generen les metadades Namaste, un fitxer amb 4 dades (1=autor - 2=títol - 3=data - 4=identificació).
- Dircloud, interfície de consulta dels AIP del DDD. Actua sobre tots els discos (clariion, volum-i, volum-ib) que conformen el Dipòsit institucional i el Dipòsit de digitalització.
- Els checksums es comproven de manera esporàdica en cas d'haver de reestructurar un gran volum de fitxers.
- Com a eines de gestió interna disposem d'un programa de gestió de fitxers, en aquest moment el més utilitzat és webadmin.php.
Paquet d'informació de difusió (DIP)¶
- El DIP és la interfície de consulta. En el nostre cas és el DDD, que permet les cerques i l'obtenció de resultats i documents. Considerem que un document ha arribat a la fase DIP quan posem el registre amb el document a disposició dels usuaris.
- No demanem als usuaris una identificació obligatòria, només fem la distinció si la màquina té IP de la UAB o no per a la consulta dels documents restringits.
- La interrogació de les dades es pot fer per les caselles de cerca i els resultats es poden obtenir en html generalment o en diferents formats d'exportació de dades (XML, Marc21...). Per al traspàs de grans paquets d'informació es poden generar automàticament a través del format Bagit.
- L'OAI és el sistema de disseminació per màquines, generalment recol·lectors (per exemple, Recolecta, Europeana...).
- Hi ha robots que recuperen les dades directament de les pàgines web en html, per exemple, Google.
Només el personal del Servei de Biblioteques té permissos per visualitzar els fitxers del Dipòsit de digitalització a través de la interfície 'Dircloud'. Aquesta aplicació mostra els continguts en forma d'etiquetes de núvols.
Actualitzat per Cristina Azorin fa més d'un any · 3 revisions