Tasca #1509
tancatExtracció de fitxers jpg i txt del fons de veterinària per a carregar a la MDC
Descripció
En aquesta tasca anirem indicant al Ferran quines són les obres que necessiten una extracció dels fitxers en jpg i txt i ell ens crearà un fitxer zip al volum-I.
ES Actualitzat per Eulàlia Serre fa quasi 14 anys
Hola Ferran,
Voldriem demanar-te si podries procedir a fer els zip de les revistes del fons d'Història de la Veterinària.
Es tractaria dels següents registres:
64330
60189
29269
64331
64329
60250
60188
29271
60191
60190
60248
71697
78738
A més per a que jo pugui fer proves amb els transcripts, podries si us plau fer fitxers txt dels jpg del registre 70308
Moltes gràcies,
Eulàlia
ES Actualitzat per Eulàlia Serre fa quasi 14 anys
- Prioritat ha canviat de Normal a Immediata
Hola Ferran,
Voldríem demanar-te si podries procedir a fer els zip de les revistes del fons d'Història de la Veterinària, haurien de contenir els txt i els jpg, un de cada per pàgina. No cal incloure els fitxers tiff, ni els pdf.
Hem dividit la càrrega en diferents fases i de moment comencem per els que veiem més fàcils, es tractaria dels següents registres:
http://ddd.uab.cat/record/64330
http://ddd.uab.cat/record/60189
http://ddd.uab.cat/record/29269
http://ddd.uab.cat/record/64331
http://ddd.uab.cat/record/64329
http://ddd.uab.cat/record/60250
http://ddd.uab.cat/record/60188
http://ddd.uab.cat/record/29271
http://ddd.uab.cat/record/60191
http://ddd.uab.cat/record/60190
http://ddd.uab.cat/record/60248
http://ddd.uab.cat/record/71697
http://ddd.uab.cat/record/78738
Moltes gràcies,
Eulàlia
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Eulàlia,
he preparat el mític script que agafa el txt del pdf, el parteix en tants fitxers com hi ha jpg, i els aparella, i finalment en fa un zip.
Ho fet pel primer: http://volum-i.uab.cat/search?q=64330
Em podries dir si et va bé?
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
N'he fet uns quants més. No te'ls apunto un per un, vaig fent-los per l'ordre que m'indiques.
CA Actualitzat per Cristina Azorin fa quasi 14 anys
Gràcies Ferran, de moment anem traient els zip sense problemes.
Podries mirar què passa amb aquest que només té 9 fitxers jpg?
http://volum-i/veterinaria/anncolofivet/jpg/anncolofivet_a1987m4-6v44n8/
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Espero que només fos perquè el vaig interrompre abans d'acabar mentre feia proves!
L'estic regenerant. Si tornés a passar, si us plau aviseu-me.
ES Actualitzat per Eulàlia Serre fa quasi 14 anys
Gràcies, Ferran. He pujat el document sol i funciona però per alguna raó si pujo els documents amb llista tabulada no sembla trobar els fitxers de text. Ho consultaré a la Biblioteca de Catalunya, quin remei! Ja no puc fer més proves.
Eulàlia
ES Actualitzat per Eulàlia Serre fa quasi 14 anys
Hola Ferran,
Necessitaríem que fessis zip amb fitxers txt dels següents llibres del fons de veterinària[[]]
http://ddd.uab.cat/record/60168
http://ddd.uab.cat/record/60165
http://ddd.uab.cat/record/60167
http://ddd.uab.cat/record/70308
http://ddd.uab.cat/record/60169
http://ddd.uab.cat/record/60164
http://ddd.uab.cat/record/60166
http://ddd.uab.cat/record/60163
http://ddd.uab.cat/record/60197
http://ddd.uab.cat/record/60199
http://ddd.uab.cat/record/73882
http://ddd.uab.cat/record/60170
http://ddd.uab.cat/record/60152
http://ddd.uab.cat/record/73883
http://ddd.uab.cat/record/60150
http://ddd.uab.cat/record/60156
http://ddd.uab.cat/record/60153
http://ddd.uab.cat/record/60125
http://ddd.uab.cat/record/60201
http://ddd.uab.cat/record/60200
http://ddd.uab.cat/record/70326
http://ddd.uab.cat/record/60198
http://ddd.uab.cat/record/60196
http://ddd.uab.cat/record/60148
http://ddd.uab.cat/record/60244
http://ddd.uab.cat/record/60273
http://ddd.uab.cat/record/60121
http://ddd.uab.cat/record/60160
http://ddd.uab.cat/record/60155
http://ddd.uab.cat/record/60157
http://ddd.uab.cat/record/60202
http://ddd.uab.cat/record/60159
http://ddd.uab.cat/record/60247
http://ddd.uab.cat/record/60245
http://ddd.uab.cat/record/60249
Gràcies
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Estic acabant els de la primera petició en aquesta mateixa tasca; quan els acabi començo amb aquests darrers.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Sobre Selecciones avícolas (http://ddd.uab.cat/record/71697):
Fixeu-vos que aquesta revista està buidada a nivell d'article. Per tant, són 1715 conjunts de documents (http://ddd.uab.cat/collection/selavi), no 1. En sou conscients? Ja sabeu com gestionar aquest cas en ContentDM?
D'altra banda, ara mateix encara no puc aparellar els jpg amb els txt. La majoria dels números d'aquesta revista els tenim a la UAB, però uns altres són cedits per la Real Escuela de Avicultura; són els que estan marcats amb @reavicultura. Els números digitalitzats cedits per aquesta escola encara no estan separats per articles, sinó totes les pàgines dels números juntes. Li he demanat al Juan José que me'ls separi, perquè pugui fer l'aparellament. Quan m'ho hagi fet ja els aparellaré per fer-ne el zip.
Aquests zips, si els faig igual que he estat fent per als altres documents, seràn d'article per article. Us anirà bé així?
ES Actualitzat per Eulàlia Serre fa quasi 14 anys
Hola Ferran,
ja hem acabat les proves amb la MDC i surt tot molt bé, els registres queden macos i els fitxers txt són cercables.
De moment ves fent el que puguis.
Les revistes que estan buidades per articles les hem deixat per una segona fase perquè ens donaran molta feina, ho sento si se m'ha colat aquest registre, de moment si vols, els pots obviar. Hem pensat que a la MDC carregarem un sol registre, el de la revista, i no el buidat (en registres)de tots els articles, però serà difícil crear les carpetes amb els fitxers per poder-los pujar, ho haurem d'estudiar. Tu ho pots fer com et sigui més fàcil.
Ja ens diràs a mida que vagis fent.
Si vols veure com queden les proves: http://mdc.cbuc.cat/cdm4/document.php?CISOROOT=/provaUAB&CISOPTR=6432&REC=2 (no estic segura de si la col·lecció és pública o no, ho provem i si no pots accedir et demano disculpes).
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Uf, me n'alegro que funcioni! De tota manera, he vist algun cas que es queixa que no hi ha text:
http://mdc.cbuc.cat/cdm4/page_text.php?CISOROOT=/provaUAB&CISOPTR=6025&CISOBOX=0&OBJ=6432&ITEM=101
N'he vist algun altre... En sou conscients?
ES Actualitzat per Eulàlia Serre fa quasi 14 anys
Quan pugui em miro aquest que no té text, a veure que ha passat.
Una cosa més, la Meritxell em diu que ha descarregat el zip del registre 29271 (nom de la carpeta: avepa) i es veu que hi ha fitxers txt duplicats i alguns sense contingut. Saps què ha pogut passar?
Fins ara,
Eulàlia
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Em temo que sí. Si no em falla la memòria, aquesta revista està normalitzada a l'antiga, posant-hi p per pàgina, quan més tard vam decidir que era una mala idea, perquè sovint hi ha publicitat, pàgines dobles o làmines i per tant no podem assegurar que el número de pàgines sigui consecutiu, i per tant és millor posar-hi un número seqüencial, que vam decidir que fos precedit pel guionet baix.
Tinc un script per reanomenar-ho automàticament, però ho faré a partir de demà, que no vull córrer i prefereixo pensar-m'ho dos cops.
CA Actualitzat per Cristina Azorin fa quasi 14 anys
Ara ja no estem només en proves sinó que ja hem fet càrregues definitives a la MDC, ho pot veure a la col·lecció: http://mdc.cbuc.cat/cdm4/browse.php?CISOROOT=/fonshistvet
El tema de les cerque si els txt funciona perfecte.Podries continuar amb l'extracció per a que anem avançant? Gràcies!!
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Ja he començat; els tres primers ja estan: 60168 60165 60167
Continuo...
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Deixo pendent la II Asamblea nacional veterinaria (http://ddd.uab.cat/record/60160) perquè el PDF està partit en 2 al Clariion però no al Volum-I.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
També deixo pendent el Manual práctico de veterinaria doméstica (http://ddd.uab.cat/record/60202) pel mateix motiu.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Em sembla que ja estan tots, menys:
- http://ddd.uab.cat/record/71697: Selecciones avícolas
- http://ddd.uab.cat/record/60160: II Asamblea nacional veterinaria
- http://ddd.uab.cat/record/60202: Manual práctico de veterinaria doméstica
Les explicacions de cadascun dels motius estan més amunt d'aquesta mateixa tasca.
Si me n'he deixat algun altre, si us plau aviseu-me, que amb tantes llistes és ben possible que me n'hagi saltat algun.
CA Actualitzat per Cristina Azorin fa quasi 14 anys
Hola Ferran,
ara comencem la segona tongada de documents per entrar al fons. S'haurien de fer els fitxers jpg dels següents registres, quatre llibres llargs:
http://ddd.uab.cat/record/60159 IV Asamblea nacional veterinaria
http://ddd.uab.cat/record/60247 Nuevo tratado de medicina veterinaria
http://ddd.uab.cat/record/60249 Manual del veterinario inspector...
http://ddd.uab.cat/record/72336 Semblanzas veterinarias
Respecte al que tenim pendent:
http://ddd.uab.cat/record/71697: Selecciones avícolas. No la buidarem article per article, només carregarem el registre de la revista i els fitxers a sota, creus que ho podràs fer?
En el cas d'aquests dos no entenc molt bé el problema, tal com està al clariion ja ens va bé, generes els jpg i els txt (en el zip) i llestos. Ja vam parlar d'això quan feiem les divisions de la BDHAH i no veig malament que els fitxers de consulta estiguin dividits i en canvi els altres no, tu trobes que haurien de ser igual?
http://ddd.uab.cat/record/60160: II Asamblea nacional veterinaria
http://ddd.uab.cat/record/60202: Manual práctico de veterinaria doméstica
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Dos més:
- http://ddd.uab.cat/record/60160 II Asamblea nacional veterinaria
- http://ddd.uab.cat/record/60159 IV Asamblea nacional veterinaria
CA Actualitzat per Cristina Azorin fa quasi 14 anys
Seguint amb les tasques de la Meritxell també voldríem demanar-te de treure algunes imatges més de la BDHAH (allò que feia fa uns mesos), perquè ho va combinant quan la feina de veterinària baixa.
S'han d'extreure les imatges i crear els jpg perquè no hi són al volum-I, els pdf estan repaginats i com que no sabem ben bé com indicar-t'ho la Meritxell els ha obert amb el programa sumatra i et diu les pàgines del fitxer (no les posades manualment):
- extreure imatges
http://ddd.uab.cat/record/59932 imatges 41-120
http://ddd.uab.cat/record/72359 (tota la part 2: espcomeleart_a1840x2)
http://ddd.uab.cat/record/60041 imatges 44-92
http://ddd.uab.cat/record/59992 imatges 93-117
- extreure imatges i fer els .jpg
http://ddd.uab.cat/record/60008 imatges 39-79
http://ddd.uab.cat/record/59829 imatges 23-48
http://ddd.uab.cat/record/59611 imatges 72-103
http://ddd.uab.cat/record/59605 imatges 48-77
http://ddd.uab.cat/record/59602 imatges 48-84
http://ddd.uab.cat/record/59600 imatges 48-132
http://ddd.uab.cat/record/59599 imatges 57-108
http://ddd.uab.cat/record/59591 imatges 37-90
http://ddd.uab.cat/record/59590 imatges 52-76
http://ddd.uab.cat/record/56790 imatges 94-121
http://ddd.uab.cat/record/59612 imatges 53-82
http://ddd.uab.cat/record/59626 (imatges estan intercalades amb text) 13,14,16,18,20,22,24,26,28,30,32,34,37,39,41,43,45,47,51,53,55,57,59,61,63,65,67, 69,71,75,77,79,83,85,87,89,91,93,95,97,99,101,105,107,109,111,113,115,117,119,122,124,126,128,130,132,134,136, 138,140, 142,146,148,150,152
FJ Actualitzat per Ferran Jorba fa més de 13 anys
- Assignat a ha canviat de Ferran Jorba a Eulàlia Serre
Eulàlia, com que ara ja podeu vosaltres mateixes extreure jpg, cal acabar l'extracció d'imatges de la BDHAH.
CA Actualitzat per Cristina Azorin fa més de 13 anys
- Estat ha canviat de En curs a Tancada
De la BDHAH queden 4 registres per ampliar amb les imatges i el problema era que s'havia de posar l'@, ho farà el Juan José i la Meritxell acabarà l'extracció. Tanquem la tasca.