Projecte

General

Perfil

Accions

Separar els PDFs per pàgines

De vegades tenim PDFs massa grans que hem de separar en fitxers més petits. Quan aquests PDFs són resultat de digitalitzacions, també mantenim en el Volum-I (vegeu el DirectoriDelVolumI) els TIFFs corresponents als PDFs. Els fitxers TIFFs estan agrupats amb directoris que tenen el mateix nom que el PDFs i han de tenir el mateix número de fitxers que les pàgines del TIFF, per poder generar els fitxers METS i PREMIS (vegeu la documentació a MetsModsPremisIMixAlDDD i la tasca #232). De la mateixa manera, els noms dels fitxers els tenim normalitzats (vegeu NomsDelsFitxersAlDDD), i la seva codificació ens permet la generació automàtica de les 856.

Per tant, aquesta separació s'ha de poder fer automàtica i coordinadament a tots tres àmbits: PDF, TIFF i 856.

L'eina que conec, utilitzo, i em permet automatitzar la separació dels PDFs és pyPDF (http://pybrary.net/pyPdf/, que està inclòs a Debian: http://packages.debian.org/python-pypdf). La (re-)generació de les 856 també la tinc solucionada, i els TIFFs ho podré fer si mantenim la informació ben tabulada.

La meva proposta és aquesta:

fitxer-original.pdf inicial final fitxer-primer.pdf
fitxer-original.pdf inicial final fitxer-segon.pdf

El número de pàgina es correspon al del fitxer PDF, no la numeració original en paper. El número d'espais és irrellevant; es tracta que n'hi hagi un o més. En el cas de les revistes, el 856 $3 ja es generarà automàticament a partir del nom del fitxer i la llengua de la 008.

Exemple:

bolsocespexc_a1924v32.pdf   1  93 bolsocespexc_a1924v32t1.pdf
bolsocespexc_a1924v32.pdf  94 185 bolsocespexc_a1924v32t2.pdf
bolsocespexc_a1924v32.pdf 186 260 bolsocespexc_a1924v32t3.pdf
bolsocespexc_a1924v32.pdf 261 359 bolsocespexc_a1924v32t4.pdf

Pel que fa a passar-me aquestes llistes, en el cas de les revistes val la pena que sigui en forma de tasca. Crec que em podeu crear una tasca per a cada document o conjunt de documents que hagueu de partir, així tots podem seguir com evoluciona. La meva proposta és que poseu aquesta llista al propi enunciat de la tasca (el requadre groc, per entendre'ns), perquè permet fer-ne modificacions, en cas que detectem errors.

Actualitzat per Ferran Jorba fa més de 13 anys · 1 revisions