Projecte

General

Perfil

Accions

Gestió del Volum-I

Vegeu també: DirectoriDelVolumI

Introducció

El Volum-I és el dipòsit del dipòsit, on hi desem els masters de digitalització en alta resolució de les obres digitalitzades, i potser hi acabarem desant les versions en Word o similars de les obres d'autoarxiu que publicarem en PDF o potser les dades de la recerca.

El Volum-I consisteix en un armari de discs SataBeast, replicat en un altre d'idèntic. Són directoris i fitxers. Hem anat aprenent a gestionar-ho i decidir com gestionar-ho amb els anys, sense tenir massa idees preconcebudes. Ningú no tenia cap experiència prèvia comparable.

Una de les primeres decissions que es van adoptar és estandaritzar els noms dels fitxers i dels directoris, tant pel que fa a les limitacions tècniques (evitar diacrítics, apòstrofs, espais i qualsevol altra caràcter problemàtic) com les convencions específiques de com anomenar una obra, una publicació periòdica o un article (NomsDelsFitxersAlDDD) i com estructurar-los en els encàrrecs de digitalització (PropostesDeMilloraEnDigitalitzacionsRetrospectives). Per tant, una obra publicada al DDD, si té una versió en alta resolució a resultes d'una digitalitització retrospectiva, en fitxer (o el directori) tindrà el mateix nom.

Descripció dels discs i la seva numeració

Cadascun dels dos SataBeast que formen part del Volum-I és un armari de discs de 1 o 2 TB. Cadascun dels discs l'hem anomenat en un grup de dues xifres, separades per guionet: la primera indica la controladora, i la segona el número de disc consecutiu total de l'armari (1-01, 1-02, 1-03,.. 3-15, 4-16, 4-17, etc). Tot i que hi ha discs de 2 TB, en el seu moment al Servei d'Informàtica ens va semblar fer partitions de 1 TB. És a dir, que per a qualsevol persona que consulti els continguts, només veu un munt de discs de 1 TB. També és cert que el sistema operatiu ha de reservar un espai per a la gestió del disc, el formateig, les entrades de nom de fitxer, dates i altres dades necessàries. Això vol dir que en queden lliures poc més de 915 GB per disc lliures. Finalment, no és bo que estiguin més del 85-90 % plens, de manera que hem de comptar amb menys de 900 GB per disc.

Organització dels fitxers al Volum-I

A cada disc hi ha un directori principal que indica si el contingut és (o hauria de ser) al ddd, o és una altra cosa. I després un segon nivell que ens agrupa per grans col·leccions, ex:

  • /mnt/VOLUM-I/3-11/ddd/veterinaria/
  • /mnt/VOLUM-I/3-13/ddd/veterinaria/
  • /mnt/VOLUM-I/3-13/ddd/carpol/
  • /mnt/VOLUM-I/3-13/ddd/viladot/

Nom del disc USB

Inicialment, les càrregues es fan conservant el nom del disc USB (biblioteca-projecte-n). Aquest nom de disc l'afegim també com a namaste local amb el prefixe 9= (ex. 9=biblioteca-projecte-n) a cada subdirectori.

Quan s'han corregit els hipotètics errors, s'han normalitzat els noms i els documents s'han penjat al DDD, eliminem el nom del disc i els documents ja pengen de la col·lecció corresponent. El fitxer namaste 9= ens servirà per saber a quin disc havia estat, si més tard hem de traçar-ne l'origen.

Interfícies de consulta via web

Com que només es tracta de directoris i fitxers, qualsevol gestor de fitxers, ja sigui només de consulta com de modificació serveix. En concret, el servidor Apache sempre ens ha donat un primer accés senzill per veure què hi ha, per exemple:

http://ddd-test.uab.cat:2000/uab/VOLUM-I/1-03/ddd/raac/

Una versió unificada de tots els discs la proporciona aquesta altra interfície:

http://volum-i.uab.cat/

Aquesta eina només considera els discs que el directori de primer nivell és ddd, i agrupa tots discs amb els mateix nom en el segon nivell tots junts, com si fossin un de sol, de manera que no calgui saber en quin disc està, només l'agrupació i el disc.

Funcionen també qualsevol eina de gestió de fitxers via web. De tots els que hem provat, el que més ens agrada és l'anomenat webadmin.php (http://cker.name/webadmin/).

Més avall veurem com activar accions automàtiques.

Curation micro-services

Simultàniament, els gestors de la California Digital Library han estat elaborant els Curation Micro-services (https://confluence.ucop.edu/display/Curation/Microservices). En síntesi, el que venen a dir és que les dades sobreviuen a les aplicacions, i del que es tracta no és tant de fer grans aplicacions sinó d'aplicar unes polítiques a les dades, que siguin tan independents del software com sigui possible. I no es tracta tant d'aplicar-les totes sinó d'aplicar-ne les que tinguin més sentit en cada cas.

La gestió del nostre Volum-I està inspirat doncs aquestes idees. En concret, apliquem les següents.

Namaste

Namaste (NAMe AS TExt) is a file naming convention to support primitive directory-level metadata tags exposed directly via filenames. As such, Namaste tags greet visitors who request a directory listing (e.g., Linux 'ls') with a glimpse of what the directory holds. (https://confluence.ucop.edu/display/Curation/Namaste)

Tot el que tenim al Volum-I hauria d'estar (o hauria d'acabar estant) catalogat al DDD. Per tant, hauria de tenir un identificador al DDD. En concret, a més dels camps 1=autor, 2=títol, 3=data, el 4=identificador apunta al número de registre del DDD.

Això permet que des de la interfície de consulta http://volum-i.uab.cat/ sigui possible cercar fitxers o directoris per número de registre del DDD (ex: http://volum-i.uab.cat/search?q=17654). La creació dels fitxers namaste es fa automàticament via un script que poso en marxa a mesura que els nous continguts es publiquen al DDD, i per tant es pot saber el número, l'autor, el títol i l'any.

etc

Altres.

Accions activades automàticament

Quan cal fer una acció que abasta més d'un fitxer, val la pena que ho faci un programa (o un script) per a acabar abans i amb la garantia d'homogeneïtat en el seu tractament. Donat que darrera del Volum-I només hi ha directoris i fitxers, la petició d'aquestes accions també es fa via fitxers, normalment creats o pujats via el webadmin.php.

jpg.txt

Crear jpg a partir dels tiff (tasca #1779)

txt.txt

(tasca #1767)

zip.txt

Si cal baixar-se un munt de fitxers, val la pena empaquetar-los en un fitxer zip (tasca #1753)

rename2info.txt

Per a cada fitxer (objecte digital) al DDD i al Volum-I tenim dos o més fitxers auxiliars: un .info, on hi desem les característiques tècniques extretes automàticament per programa (md5 i sha1, i altres característiques de la imatge o del PDF), i una miniatura en .png. Sovint també hi guardem un fitxer .txt amb el text del document, quan és de naturalesa textual (un pdf o una imatge que es correspon a una pàgina d'un document textual).

Quan cal canviar el nom d'un d'aquests fitxers (objecte digital) cal que el canvi es faci simultàniament a tots els fitxers auxiliars, i a més en el propi nom que existeix dins del fitxer .info.

Amb la pràctica dels anys, he arribat a la conclussió que la manera més coherent de fer el canvi és el següent:

  1. Canviar el nom del .info al nom que haurà de tenir el fitxer (objecte digital).
  2. A partir del .info, com que sabem el nom antic (està contingut dins del fitxer .info) i el nou, podem sincronitzar tots els canvis automàticament per programa.

Amb els anys he anat elaborant un script que ho gestiona i que n'he acabat dient rename2info.sh (reanomena segons el info). Per coherència amb aquest script, doncs, el fitxer que l'activa també es diu rename2info.txt.

Per tant, per canviar el nom d'un fitxer PDF caldrà fer el següent:

  1. Canviar el nom del fitxer abans.info a despres.info.
  2. Pujar (o crear) un fitxer (buit, o pot tenir qualsevol cosa, és indiferent) que es digui rename2info.txt.
  3. L'endemà tots els fitxers estaran canviats.

Quan s'aplica? Sobretot en els casos dels PDF.

rename2dir.txt

Quan el que cal canviar és tots els fitxers d'un directori perquè tinguin el mateix nom que el directori i amb el sufix _1, _2, _3, etc. el que cal fer és el següent:

  1. Canviar el nom del directori
  2. Pujar (o crear) un fitxer (buit, o pot tenir qualsevol cosa, és indiferent) que es digui rename2dir.txt.
  3. L'endemà tots els fitxers estaran canviats.

El nom d'aquest fitxer es diu així perquè el script activat també es diu d'aquesta manera: rename2dir.sh (reanomena segons el directori).

Quan s'aplica? Sobretot en els directoris TIFF o JPG de les digitalitzacions retrospectives.

Actualitzat per Ferran Jorba fa més de 13 anys · 25 revisions