- Taula de continguts
- Prescindir dels TIFFs i preservar JPEGs?
- Quina preservació?
- Motivació d'aquest document
- Recomanacions de digitalització
- On es pateix la pèrdua de qualitat?
- Resolució i compressió, amb pèrdua o sense
- Suport dels navegadors
- Qüestió de proporcions
- Comparacions amb el paper
- Preservació, volum i replicació
- Conclusió del paral·lelisme en paper
- Fidelitat de reproducció dels colors originals
- Valor de l'OCR
- Producció dels PDFs a partir de JPEG, no TIFF
- Què gestionem?
- Per qui?
- Qualitat, usuaris i preservació
- Altres
Prescindir dels TIFFs i preservar JPEGs?¶
Ferran Jorba
Abril 2013
Quina preservació?¶
Estem a l'any 2013, i tots plegats hem tingut temps i perspectiva de fer, llegir, pensar, comparar i valorar les polítiques que hem estat seguint per a preservar el nostre patrimoni digital. En temps de crisis econòmiques com el que estem patint, és el moment de posar-hi distància, veure-ho amb perspectiva, i fer valoracions.
En els nostres dipòsits, i en el DDD en particular, hi tenim dos tipus de documents:
- Documents nascuts digitals.
- Documents generats per digitalitzacions retrospectives. D'aquests segons, en general se'n tenen dues versions: (2a) les versions per a consulta, que al DDD són majoritàriament PDFs, i (2b) els màsters originals de digitalitació, en alta resolució, en format d'imatge.
D'entrada, cal preguntar-nos: quin dels tres conjunts de dades és al que, de manera natural, hi hauríem de dedicar més atenció? Sembla obvi que a aquell del que no hi ha alternativa, els nascuts digitals. De tota manera, per inèrcia, en el context del CBUC acabem parlant de preservar els màsters de digitalització; aquest acaba essent el centre de les discussions i confrontacions de criteris, tot i que no deixen de ser un substitut digital de documents que ja tenim en paper, sovint en més d'un lloc. Molt menys esforços hi estem dedicant a assegurar-nos que no perdem documents digitals, massa vegades únics i específics.
Aquest document argumenta que els criteris que s'han anat seguint fins ara pel que fa as màsters originals dels documents 2a són poc útils cara als lectors, contradictoris entre els seus objectius i els resultats obtinguts, erronis en alguns dels seus plantejaments tècnics, i insostenibles econòmicament. Finalment, planteja l'alternativa que consisteix, bàsicament, en convertir els TIFFs originals en JPEGs i guardar aquests en comptes dels TIFFs.
Aquest document amplia arguments ja exposats a http://ddd.uab.cat/record/59776 i https://groups.google.com/forum/?fromgroups=#!topic/digital-curation/jX1MELYvpKE, i segueix la línia de pensament de David Rosenthal (http://en.wikipedia.org/wiki/David_S._H._Rosenthal i http://blog.dshr.org/)
Motivació d'aquest document¶
La motivació actual ve de que, degut a l'increment continuat del cost del manteniment del Satabeast a partir de quan expira la garantia, com acostumen a fer tots els fabricants de hardware, ha estat més raonable comprar un equip nou que pagar aquest manteniment considerant el cost econòmic i els avantatges i inconvenients de cada opció.
De tota manera, creiem que igualment val la pena tenir en compte aquest context econòmic per fer-nos els replantejament que ens permeti continuar amb les polítiques actuals però amb un replantejament tecnològic que implicaria aquest canvi de format.
Els costos dels dos Satabeasts, sumant-hi les compres i els manteniments, han estat aquests:
| Data | Import | Concepte |
| Novembre 2007 | 29.842,16 | Compra Satabeast 1 15x1 TB |
| Febrer 2008 | 672,80 | Compra 1x1 TB |
| Octubre 2008 | 27.384,51 | Compra Satabeast 2 16x1 TB |
| Juny 2009 | 7.335,45 | Compra 14x1 TB |
| Març 2010 | 19.372,00 | Compra 18x2 TB |
| 2010 | 2.768,54 | Manteniment 2010 |
| 2011 | 9.122,19 | Manteniment 2011 |
| 2012 | 17.261,50 | Manteniment 2012 |
| Total | 113.759.15 |
Recomanacions de digitalització¶
Seguint les recomanacions del CBUC (http://hdl.handle.net/2072/97495), que a la seva vegada segueixen altres recomanacions internacionals, al DDD estem desant els màsters en format TIFF sense compressió.
És un document impecable en totes les seves consideracions textuals i arguments.
Ocupació:
= (DDD)
============================== (Volum-I amb TIFFs)
==== (Volum-I amb JPEGs)
En tot el debat dels formats hi ha unes quantes qüestions que es barregen, però que entenc que cal posar cadascuna al seu lloc.
Segurament el problema inicial és de nomenclatura: dels màsters en alta resolució de la digitaltizació se'n diu «còpia de preservació», i aquest equívoc és àmpliament extès. David Rosenthal rebat aquest prejudici:
The key attribute for a format's survivability is that it have strong open source support. Formats that get wide adoption will have strong open source support and those that don't, won't. Its a Darwinian world out there.
This suggests that the idea of "preservation formats" as opposed to "access formats" is a trap. Precisely because they aren't access formats, preservation formats are less likely to have the strong open source support that enables successful preservation.
http://blogs.loc.gov/digitalpreservation/2013/01/is-jpeg-2000-a-preservation-risk/#comment-11802
On es pateix la pèrdua de qualitat?¶
En la captura sense color, no en el format escollit.
Resolució i compressió, amb pèrdua o sense¶
No cal magnificar la pèrdua de dades de la compressió amb pèrdua, com la que utilitza el format JPEG. El que és important és que la captura es faci amb la qualitat desitjada. Pràcticament totes les fotografies natives digitals es fan en format JPEG, i no passa res. Per què ha de ser un problema en les digitalitzacions retrospectives?
Suport dels navegadors¶
El suport al format JPEG és pràcticament universal en qualsevol dispositisitiu digital. (Navegadors, tabletes, càmeres, mòbils, etc.)
Qüestió de proporcions¶
Agafem el contingut del DDD. Hi tenim 129.044 documents, tant natius digitals com resultats de digitalització retrospectiva, i que ocupen 423.5 GB.
Dels 129.044 documents (fitxers) que tenim a març del 2013, 126.564, és a dir, un 98%, són PDF o JPG.
| Registres | Fitxers | Pàgines | Espai | Descàrregues | |
| 84.409 | 112.770 | 2.905.363 | 395,6 GB | 11.443.018 | |
| JPG | 8.150 | 13.794 | 13.794 | 14,7 GB | |
| TIFF | 1.520,0 GB | 4 |
Comparacions amb el paper¶
El JPEG difumina lleugeríssimament els contrastos extrems de color, com si la tinta es corregués una mica per les vores. Igual que el paper, vaja. Aquest corriment de la tinta per les vores clarament no afecta negativament la lectura. Posats en plan pràctic, a la banda del lector, podriem fins i tot argumentar que la millora, ja que aquesta lleugeríssima difuminació amaga petites irregularitats d'absorció de la tinta i fa les corbes de les lletres lleugeríssimament més rodones, i per tant més fàcils de llegir. El TIFF seria l'equivalent de paper satinat amb un gramatge alt, el JPEG seria paper normal amb un gramatge més normalet.
I no estem parlant de perdre la quantitat ni tan sols la precisió de la paleta de colors. Només que les vores no són tan acusades. A 300 punts per polzada, aquesta diferència [càlcul en escala decimal].
Continuem amb aqusta comparació amb el paper, perquè és molt il·lustrativa i hi eliminem la obscuritat i màgia negra dels formats. La biblioteca té uns documents valuosos però en estat fràgil. Decidim fer-ne una còpia perque més gent els pugui consultar i no faci malbé els originals. Fins aquí, estem cumplint la nostra feina. Però decidim que aquesta còpia en paper no la farem en paper normal, que potser es corre una mica la tinta, sinó en paper satinat
La pregunta és: les biblioteques, descarten llibres perquè no estan en paper satinat? El paper satinat és més car i pesa més. Les biblioteques descarten comprar més llibres i prefereixen comprar-ne menys, pagant més i encarregant més prestatgeries, i fins i tot fent edificis especials per poder tenir llibres en paper satinat? I en èpoques de penúries econòmiques?
D'altra banda, aquesta documents en paper serian tan satinats que la majoria de les persones no els podrien utilitzar directament, sinó que els hi faria falta carretons i taules especials per consultar-los. Podem acceptar l'argument que són per especialistes o investigador. Però, quina seria la valoració si una biblioteca hagués comprat 670.000 documents en paper satinat i només se n'haguessin prestat tres o quatre? I si aquests tres o quatre també haguessin haguessin pogut fer igualment la seva consulta o recerca en paper normal?
Preservació, volum i replicació¶
Amb el paper satinat resulta que no podem construir un segon edifici amb una segona còpia, ni tan sols podem demanar a una segona biblioteca que ens en guardi algun per si a nosaltres ens passa algun desastre, ja sigui econòmic, organitzatiu o tecnològic, que ens provoqui la pèrdua de la nostra còpia.
Amb aquests volums ens és impossible seguir la regla del 3-2-1 que demana al menys tres còpies, en al menys dos llocs diferents, i al menys un fora de la institució. Per tant, considerar que la còpia TIFF és «de preservació» és contradictòria en els seus objectius.
Un altre dels arguments més utilizats a favor dels formats no comprimits, com el TIFF, és que si es fa malbé, pel propi tipus de codificació dels bits, donat que no depenen dels que l'envolten, són menys susceptibles a la corrupció que pugui passar en el fitxer degut a malfuncionaments del dispositiu d'emmagatzemamanet. Hi ha un professor de la universitat de Colònia, Mandred Thaller [http://www.hki.uni-koeln.de/manfred-thaller-dr-phil-prof] que viu d'aquest mite (jo he estat en un dels seus seminaris pràctics). Aquest argument també ès fàcilment rebatible, ja que només té sentit si la que tenim és l'única còpia del nostre document. També és molt fantasiós pensar que l'únic que s'espatlla és un tros de fitxer, quan els desastres més probables són d'error de manipulació humana, desorganització institucional o problemes econòmics. Com que segons del que es tracta és de tenir-ne més d'una, la possibilitat de recuperació dels bits danyats és molt més fàcil recórrer a aquesta segona còpia que recuperar el percentatge del fitxer no danyat. També hi ha alternatives més pràciques com els fitxers de partitat, que consisteix en fitxers que contenen la redundància d'un conjunt d'altres fitxers i que són capaços de reconstruir un percentatge predeterminat de dany, ja sigui corrupció o pèrdua. El programa més conegut, i que fem servir extensament al DDD i al Volum-I, és el par2.
Conclusió del paral·lelisme en paper¶
Val la pena fer, doncs tota la equiparació: hem decidit guardar els nostres documents valuosos fent-ne només uns segona còpia en molt alta qualitat, però que tampoc no és l'original ni ho pot ser, que hem de desar en un edifici a part, especialment car degut al pes que ha de suportar, i que els usuaris només poden consultar amb uns dispositius especials que sovint no tenen o són difícils d'utilitzar. El manteniment d'aquest edifici és equivalent a xxx [comparació amb pressupost d'adquisicions?]
I després de 6 anys, de 670.000 d'aquests documents només n'han consultat 3 o 4.
Comparativa amb préstec: la compra de tants documents no prestats. Com es valoraria si fossin adquisicions en paper?
Fidelitat de reproducció dels colors originals¶
La digitalització d'un mateix document, en pàgines diferents, acaba tenint colors de fons diferents, causades potser per l'òptica del scanner, per la graduació del color, etc.
Ex., Casas de los religios, canvis de color entre les pàgines x i y.
Valor de l'OCR¶
documents sense ocr pràcticament ni es consulten.
Producció dels PDFs a partir de JPEG, no TIFF¶
Si el JPEG és prou bo per generar PDFs llegibles i amb OCR, com no ha de ser bo per als originals?
Què gestionem?¶
- Comparacions amb les galerades d'impremta o els llibres impresos.
- Dades o informació.
- La textura original ja s'ha perdut.
- El cas de les digitalitzacions duplicades de cartells polítics de diferents tamanys.
Per qui?¶
Les biblioteques principalment gestionem documents publicats, en la seva versió final. Ni galerades, ni esborranys. Quan en fem una còpia digital, el que demanem és, fins on sigui raonable demanar-ho, una edició digital, i per tant si fos imprès, no caldrien les galerades.
- Quants documents de recerca s'han fet sobre les taques del paper? [mirar si a Recercat hi ha algun treball d'aquest tipus]
- Edicions crítiques Bernat Metge. [Preguntar-li a l'editor d'Arquímedes]
- Missa de la UAB [Preguntar-li al Josep Maria Gregori]
- Punts forts de les biblioteques: posar-hi ordre. [Impossibilitat de desar tots els volums del Viaje literario por las iglesias de España, del Pare Villanueva, per la caòtica digitalització de Google]
Qualitat, usuaris i preservació¶
Un altre dels escenaris de digialització retrospectiva, qualitat i interès dels usuaris més il·lustatiu és Youtube. A Youtube hi ha una immensa col·lecció, contínuament creixent, de documents pre-digitals passats a digitals, amb una qualitat variable, sovint tirant a baixa, perquè molts d'ells són captures a partir de vídeos domèstics.
Qui més qui menys, la majoria de nosaltres ens hem emocionat i gaudit de trobar-hi algun d'aquests documents. Han estat útils, per nosaltres? Yo diria que molt, moltíssim. Què prefeririem, 10 documents menys a canvi d'un de sol a millor qualitat? Jo tinc clara la meva resposta.
Existeix aquest mític usuari que si no té el TIFF no en té prou? Quan val la seva exigència? No valdria la pena, per a aquest hipotètic cas, que s'ho pagués ell? [Si arriba, és clar!]
Altres¶
As usual, the issue about digital preservation isn't whether it can be done but whether we can afford to do it.
(http://blog.dshr.org/2012/11/format-obsolescence-in-wild.html)
I've argued for some time that there are no longer any plausible scenarios by which a format will ever go obsolete if it has been in wide use since the advent of the Web in 1995.
(http://blog.dshr.org/2010/11/half-life-of-digital-formats.html)
Is JPEG-2000 a Preservation Risk?
Chris Adams, Repository Development Center, technical lead for the World Digital Library at the the Library of Congress
http://blogs.loc.gov/digitalpreservation/2013/01/is-jpeg-2000-a-preservation-risk/
Actualitzat per Ferran Jorba fa quasi 13 anys · 17 revisions