Projecte

General

Perfil

Accions

Informació d'arxiu (AIP - Clariion i VNX, Mompou)

Les AIP són unitats d'arxiu, en el cas del DDD seria una unitat per directori; pot haver unes unitats petites, com articles de revista, o números sencers en el cas de les revistes de la UAB, o anys en el cas dels cartells polítics.

A l'*aplicació del DDD*, dins la màquina Mompou, es fa:

  • Es crea el registre bibliogràfic ric (per exemple, s'afegeixen les etiquetes 773).
  • Es crea l'etiqueta 856 amb l'enllaç.

Al clariion durant aquesta fase:

  • Es creen els fitxers .info amb les metadades administratives, a la nit. Per generar l'md5 i el sha1 s'utilitzen les funcions que ja porta incorporades Python (com tants altres llenguatges de programació). Després, extreu les metadades tècniques de cada format amb (sempre) dos programes JHove i un altre (primer l'altre, que és diferent en funció del format, vegeu punts 1, 2 i 3, i després JHove). El JHove és la versió 1.6 (https://packages.debian.org/jhove). Hi ha un programa python que cada nit es repassa tot el Clariion i tots els Volum-X i mira si per a cadascun dels fitxers «oficials» (.pdf, .jpg, .png., .tif, ,mp3, .mov, etc) té la seva miniatura i el seu .info, i si no hi és, o és més antic que el del fitxer principal, el genera o el regenera.
    1. Per als PDFs, les comandes pdfinfo i pdffonts, de les poppler-utils (https://packages.debian.org/poppler-utils).
    2. Per les imatges, la comanda identify d'ImageMagick (https://packages.debian.org/imagemagick).
    3. Per als àudios i vídeos, el hachoir-metadata (https://packages.debian.org/hachoir-metadata).
  • Es genera el fitxer de paritat par2. Fitxer extra amb redundància d'un o més fitxers (típicament un 10%). Si algun fitxer es corromp es pot recuperar fins al 10% de tots els fitxers.
  • Generació md5 de tots els fitxers de tots els discos.
  • Aquests fitxers complementaris permeten generar estadístiques de contingut: número total de fitxers en els diferents formats, números de pàgines (es pot veure la correspondència entre pdf i tiff per la digitalització), extracció del text de l'OCR per comprovar la qualitat, generació de miniatures. Aquestes estadístiques ajuden a fer els controls de qualitat.
  • Es generen les metadades Namaste, un fitxer amb 4 dades (1=autor - 2=títol - 3=data - 4=identificació).
  • En alguns casos els fitxers de consulta pels usuaris no es troben al clariion fins que no es poden relacionar amb un registre bibliogràfic. Seria el cas de les digitalitzacions, amb els fitxers al VNX o l'entrada directa dels professors que quedaria en un directori de revisió al disc local (màquina Mompou).

Al VNX durant aquesta fase es fa:

  • En el cas dels projectes de digitalització l'AIP es realitza en primer lloc al VNX, bàsicament perquè volem conservar el format tiff que no és de consulta i necessitem eines que relacionin els documents del VNX amb els del clariion.
  • Es creen els fitxers .info amb les metadades administratives.
  • Es genera el fitxer de paritat par2. Fitxer extra amb redundància d'un o més fitxers (típicament un 10%). Si algun fitxer es corromp es pot recuperar fins al 10% de tots els fitxers.
  • Generació md5 de tots els fitxers de tots els discos.
  • Amb aquestes tres accions complementàries es permet generar estadístiques de contingut: número total de fitxers en els diferents formats, números de pàgines (es pot veure la correspondència entre pdf i tiff per la digitalització), extracció del text de l'OCR per comprovar la qualitat, generació de miniatures. Aquestes estadístiques ajuden a fer els controls de qualitat.
  • Creació de la còpia de seguretat al volum-i. No hi ha més còpies de seguretat, ni dins, ni fora del campus.
  • Exportació dels fitxers de consulta (pdf o jpg) al clariion, en el moment de crear els registres bibliogràfics.
  • Al final, quan ja tenim els registres bibliogràfics, es generen les metadades Namaste, un fitxer amb 4 dades (1=autor - 2=títol - 3=data - 4=identificació).

I per a tots dos:

  • El control de versions permet la traçabilitat i recuperació de metadades administratives i fitxers. Només per al clariion. Pot actuar com a còpia de seguretat perquè es fan còpies diàries, una justament dins del mateix clariion, i 5 còpies? dins del VNX.
  • Disposem d'una relació de característiques dels fitxers (md5, resolució, número de pàgines, versions de jpg...), actualitzada diàriament. Fa d'inventari de tot el que tenim a clariion, VNX, volum-i. Això genera una base de dades d'inventari de fitxers.
  • Dircloud, interfície de consulta dels AIP del DDD. Actua sobre tots els discos (clariion, VNX, volum-i). Permet veure l'inventari que hem descrit anteriorment.
  • Els checksums es comproven de manera esporàdica en cas d'haver de reestructurar un gran volum de fitxers.
  • Còpies de seguretat del clariion. Es fa una còpia al dia i la primera i la segona còpia en discos virtuals. Es fa un clon de tots els discos de la UAB i un cop al mes s'envien fora de la UAB.
  • Com a eines de gestió interna disposem d'un programa de gestió de fitxers, en aquest moment el més utilitzat és webadmin.php.
    Per a la modificació de metadades disposem de la possibilitat d'editar les metadades descriptives en Marc21.

Cal completar la descripció de com es generen els fitxers .info, el control de versions (git) i descriure el que fem amb els fitxers orfes de cada directori (com és generen, quan... i si es revisen).

El primer cap de setmana del més es realitza automàticament una verificació de la integritat de la base de dades via git fschk:
https://git-scm.com/docs/git-fsck
https://git-scm.com/book/en/v2/Git-Internals-Maintenance-and-Data-Recovery

Actualitzat per Cristina Azorin fa més de 8 anys · 10 revisions