Projecte

General

Perfil

Accions

Propostes de millora en digitalitzacions retrospectives

Aquest document és col·laboratiu. Tothom hi és convidat a aportar-hi el seu granet de sorra.

Amb els anys i l'experiència podem aprendre de les coses que funcionen bé i les que es poden canviar per millorar-les. Aquesta pàgina apunta algunes propostes de millora.

Sobre els noms

Cada entitat que gestionarem ha de tenir un nom. Això inclou els discs, les obres i els fitxers. Aquests noms han de tenir les qualitats que ja coneixem (tal com expliquem a NomsDelsFitxersAlDDD, però simplificant: només lletres i números, punts, guions i guions baixos, sense espais, accents ni diacrítics, únics, no gaire llargs, etc).

Només podem fer un bon seguiment dels objectes, físics o digitals, si els tenim ben batejats, que també vol dir codificats. Aquest aspecte l'hem de cuidar bé.

Corregir els noms equivocats al mig o al final del cicle és cada cop més costós. El moment adequat de posar-lo, i posar-lo bé, és al començament. I ho hem de fer nosaltres, la UAB.

Nom dels discs

Cada disc tindrà un nom únic i establert al principi del procediment. Aquest nom cal que estigui enganxat físicament en el disc i a la caixa.

A GestioDelsDiscsUSB hi ha una proposta que es va seguir durant un temps i que consisteix en:

  • Sigla de qui l'ha comprat (ex., BCHG, SdB, SI, etc). Com que ara els discs ens el proveeix l'empresa digitalitzadora, ho canviaria pel nom de la biblioteca.
  • Nom o sigla del projecte (Marca, etc.)
  • Número correlatiu

Exemples: bchg-viladot-1, veterinaria-revistes-1, socials-pragmatiques-1, humanitats-bdhah-1, humanitats-bdhah-2, etc.

El més important és que hi hagi aquesta identificació i que sigui unívoca i raonablement mnemotècnica. Aixi podem parlar d'un disc en concret, i no de el disc dels cartells, que, a mes, no acabem de saber mai si ha estat copiat al Volum-I, publicat al DDD o no.

Encara que els discs físicament es reciclin, els noms no. Si hi ha hagut un veterinaria-revistes-2, no en podrà haver-hi mai mes cap altre amb aquest nom. Caldrà incrementar-hi el número correlatiu.

Assignacions de noms dels documents i/o fitxers

La biblioteca decidirà el nom de l'obra i els fitxers (seguint la normativa de NomsDelsFitxersAlDDD), i els enganxarà en un Post-It al document a digitalitzar. El nom és competència bibliotecària, i és fonamental per a fer el seguiment del document. Això inclou tant la sigla de l'obra (aurka, auroraCRCPCE, cuaforobr, etc.), com també el nom de cada número a les publicacions periòdiques (ex: bolchevik_a1977m9d11n7, aliobr_a1973m5n2, avante_a1972n3, etc.). No ho podem deixar-ho en mans de les empreses digitalitzadores, perquè l'experiència ens ha ensenyat que no ho fan tan bé com nosaltres. Evidentment, en els casos de publicacions periòdiques prou grans i homogènies, la biblioteca pot establir una regla que segueixi l'empresa digitalitzadora, però val la pena batejar-ne al menys algunes de cada obra, perquè quedi clar el format, especialment la forma del nom i l'ordre de les lletres a, m, d, v, n, etc.)

Equivalències entre els fitxers PDFs i els directoris dels TIFFs

Per a cada fitxer PDF s'ha de crear un directori amb els TIFFs corresponents. El nom de cada fitxer PDF ha de ser idèntic al del directori on hi ha els TIFFs, però sense extensió. P. ex., si el PDF s'ha de dir anabolmus_a1945v3n4.pdf, el directori on hi ha els tiffs corresponents s'ha de dir anabolmus_a1945v3n4 (i no anabolmus_a1945v3n4_TIF ni cap altra variant).

En el cas de les publicacions periòdiques, els PDFs, i els corresponents directoris TIFFs es faran per número publicat, no per volum enquadernat. Això es fa per disminuir el tamany dels fitxers PDF a un tamany manejable.

Sobre els discs USB

Sistema de fitxers dels discs USB

Els discs han d'estar formatejats en Fat32 (http://en.wikipedia.org/wiki/Fat32#FAT32) i no en NTFS (http://en.wikipedia.org/wiki/Ntfs). El sistema Fat32 és l'antic de Windows 95 i 98, molt més senzill que el nou NTFS (a partir de Windows NT, inclosos XP, Vista, 7, etc), però que en aquest cas no és recomanable.

La diferència principal en el cas que ens ocupa és que en NTFS els fitxers tenen propietari i permisos. Això evidentment és imprescindible per a un disc en un ordinador d'ús compartit, com un servidor i, per extensió, en qualsevol sistema de sobretaula modern. Però en un disc que viatja d'una banda a l'altra i passa per diferents mans, que els fitxers siguin propietat d'un usuari en una màquina causa problemes. De vegades, les persones que gestionen aquests discs poden modificar els fitxers i de vegades no, per causes misterioses (pista: perquè tenen drets d'administrador en el seu Windows local) i que fan perdre massa el temps. Aquest problema passa tant a les Biblioteques amb sistemes Windows com al SI amb Linux.

Estructura dels directoris tif i pdf per cada obra

Per a cada obra hi ha d'haver-hi un directori anomenat tif i un altre anomenat pdf, que agruparà, respectivament, els fitxers PDF i els TIFF.

Com que la gran majoria de les digitalitzacions que hem estat fent a la UAB han estat de publicacions periòdiques, la necessitat de tenir aparellats els TIFFs i els PDFs ha creat una estructura així:

xarxa
|-- pdf
|   |-- xarxa_a1977m5d14n0.pdf
|   |-- xarxa_a1977m5d20n1.pdf
|   `-- xarxa_a1977m5d27n2.pdf
`-- tif
    |-- xarxa_a1977m5d14n0
    |   |-- xarxa_a1977m5d14n0_1.tif
    |   `-- xarxa_a1977m5d14n0_2.tif
    |-- xarxa_a1977m5d20n1
    |   |-- xarxa_a1977m5d20n1_1.tif
    |   `-- xarxa_a1977m5d20n1_2.tif
    `-- xarxa_a1977m5d27n2
        |-- xarxa_a1977m5d27n2_1.tif
        |-- xarxa_a1977m5d27n2_2.tif
        |-- xarxa_a1977m5d27n2_3.tif
        `-- xarxa_a1977m5d27n2_4.tif

Això fa que en la digitalització de monografies, l'estructura quedi una mica redundant, però la homogeneïtat de la mateixa estructura fa més fàcil l'automatització de les verificacions de qualitat.

expart_a1921
|-- pdf
|   `-- expart_a1921.pdf
`-- tif
    `-- expart_a1921
        |-- expart_a1921_1.tif
        |-- expart_a1921_2.tif
[...]
        `-- expart_a1921_234.tif

Estructura dels directoris en el disc USB

Fins ara, els discs ens han arribat amb una estructura en el que hi ha dos directoris inicials, un pels TIFFs i l'altra pels PDFs, i a sota hi ha una certa estructura. P. ex:

|-- PDF_OCR
|   |-- CATALOGOS
|   |-- PINTORES
|   |-- REVISTA
|   `-- VARIOS
`-- TIF
    |-- CATALOGOS
    |   |-- catsectej_a1906_TIF
    |   |-- expart_a1919_TIF
    |   |-- expart_a1920_TIF
    |   |-- expart_a1921_TIF
    |   |-- expautret_a1907-08_TIF
    |   |-- exppri_a1932_TIF
    |   |-- exppri_a1933_TIF
    |   |-- exppri_a1934_TIF
    |   |-- exppri_a1935_TIF
    |   |-- exppri_a1936_TIF
    |   `-- exppri_a1937_TIF
    |-- GOYTISOLO
    |   |-- goyc_4212
    |   |-- goyc_4213
    |   |-- goyc_4214
    |   |-- goyc_4215
    |   |-- goyc_4216
    |   |-- goyc_4217
    |   |-- goyc_4218
    |   |-- goyc_4219
    |   |-- goyc_4220
    |   |-- goyc_4221
    |   |-- goyc_4222
    |   |-- goyc_4223
    |   |-- goyc_4224
    |   |-- goyc_4225
    |   `-- goyc_4226
    |-- Jordi_Arbin303251s
    |-- PINTORES
    |   |-- eduros_a1922_TIF
    |   |-- enrcas_a1923_TIF
    |   |-- fedbelmas_a1923_TIF
    |   |-- feralvsot_a1922_TIF
    |   |-- joasor_a1921_TIF
    |   |-- joscla_a1923_TIF
    |   |-- juapan_a1923_TIF
    |   |-- ramcas_a1921_TIF
    |   |-- sanrus_a1919x1_TIF
    |   `-- sanrus_a1919x2_TIF
    |-- REVISTA
    |   |-- anabolmus_a1941v1n1_TIF
    |   |-- anabolmus_a1942v1n2_TIF
    |   |-- anabolmus_a1943v1n3_TIF
    |   |-- anabolmus_a1944v2n1_TIF
    |   |-- anabolmus_a1944v2n2_TIF

Aquesta estructura té alguns inconvenients:

  1. A la que es fan correccions de noms, és molt difícil fer-los en paral·lel als dos llocs, i al final discrepen.
  2. Com que no estan al costat un de l'altra, no és gens fàcil fer comprovacions per confirmar, p. ex, que de tots els TIFFs tenim PDFs i viceversa, o que el número de pàgines de l'un es correspon al de l'altre. Aquests errors passen molt més del que sembla. En el disc que he agafat d'exemple (docout_disco_01_2010) efectivament tenim uns quants TIFFs sense PDFs.

Proposo una estructura en la que la versió TIFF i la PDF de cada document estiguin al costat. Per exemple:

|-- anabolmus
|   |-- pdf
|   `-- tif
|       |-- anabolmus_a1941v1n1
|       |-- anabolmus_a1942v1n2
|       |-- anabolmus_a1943v1n3
|       |-- anabolmus_a1944v2n1
[...]
|       |-- anabolmus_a1953-1954v11
|       |-- anabolmus_a1955-1956v12
|       |-- anabolmus_a1957-1958v13
|       |-- anabolmus_a1959-1960v14
|       |-- anabolmus_a1961-1962v15
|       |-- anabolmus_a1963-1964v16
|       |-- anabolmus_a1965-1966v17
|       `-- anabolmus_a1967-1968v18
|-- catalegs
|   |-- catsectej_a1906
|   |   |-- pdf
|   |   `-- tif
|   |       `-- catsectej_a1906
|   |-- expart_a1919
|   |   |-- pdf
|   |   `-- tif
|   |       `-- expart_a1919
|   |-- expart_a1920
|   |   |-- pdf
|   |   `-- tif
|   |       `-- expart_a1920
|   |-- expart_a1921
|   |   |-- pdf
|   |   `-- tif
|   |       `-- expart_a1921
|   |-- expautret_a1907-1908
|   |   |-- pdf
|   |   `-- tif
|   |       `-- expautret_a1907-1908

Signatures MD5 dels discs entregats

Els discs s'entregaran amb un fitxer que contingui les signatures MD5 dels fitxers. Aquest fitxer servirà per comprovar si hi ha hagut canvis o no en el disc des que es va entregar, i fins i tot per confirmar que el traspàs al Volum-I hagi estat acurada.

Proposo que tingui aquest nom: nom-del-disc.md5 i que estigui al directori arrel del disc. L'existència d'aquest fitxer serveix també per batejar el disc.

Ex: comunicacio-viladot-1.md5, humanitats-bdhah-2.md5

Sobre el circuit que ha de seguir el disc USB

Motius perquè val la pena que primer sigui copiat al Volum-I

Si hem donat les coses ben batejades a les empreses digitalitzadores, no hauria de fer falta canviar ni corregir noms. Caldrà, això sí, fer les comprovacions de qualitat pertinents.

Jo crec que des de Biblioteques es pot fer una repassada general, de tipus formal (existència del fitxer .md5, format del disc, veure somerament que hagin seguit els noms que els hi vam donar, etc. etc.) i després ja es pot copiar al Volum-I.

Amb això hi guanyem unes quantes coses:

  1. Còpia de seguretat local. Si se'ns fa malbé el disc a la UAB, ja en tenim una còpia a la UAB.
  2. Visibilitat del disc per part de tanta gent com vulgui. No seria com ara que només una persona sap com és, i els demés no sabem ni què inclou.
  3. Podrem aplicar els controls de qualitat automatitzats de manera immediata: qualitat dels TIFFs, tamany dels PDFs, concordància de pàgines, qualitat del OCR, etc. etc. i ho podrem veure tots.

A més, si el disc ens ve amb el fitxer .md5, no treu que el disc torni a Biblioteques o l'empresa digitalitzadora, per si, per la raó que sigui, cal fer correccions. Amb el fitxer .md5 serà immediat trobar les diferències i transferir només aquestes al Volum-I.

Actualitzat per Ferran Jorba fa quasi 14 anys · 2 revisions