Projecte

General

Perfil

Accions

Tasca #1509

tancat
ES ES

Extracció de fitxers jpg i txt del fons de veterinària per a carregar a la MDC

Tasca #1509: Extracció de fitxers jpg i txt del fons de veterinària per a carregar a la MDC

Afegit per Eulàlia Serre fa quasi 14 anys. Actualitzat fa més de 13 anys.

Estat:
Tancada
Prioritat:
Immediata
Assignat a:
Categoria:
-
Inici:
26-04-2012
Data de venciment:
Paraula clau:
MDC fons veterinària

Descripció

En aquesta tasca anirem indicant al Ferran quines són les obres que necessiten una extracció dels fitxers en jpg i txt i ell ens crearà un fitxer zip al volum-I.

ES Actualitzat per Eulàlia Serre fa quasi 14 anys Accions #1

Hola Ferran,

Voldriem demanar-te si podries procedir a fer els zip de les revistes del fons d'Història de la Veterinària.
Es tractaria dels següents registres:
64330
60189
29269
64331
64329
60250
60188
29271
60191
60190
60248
71697
78738

A més per a que jo pugui fer proves amb els transcripts, podries si us plau fer fitxers txt dels jpg del registre 70308

Moltes gràcies,

Eulàlia

ES Actualitzat per Eulàlia Serre fa quasi 14 anys Accions #2

  • Prioritat ha canviat de Normal a Immediata

Hola Ferran,
Voldríem demanar-te si podries procedir a fer els zip de les revistes del fons d'Història de la Veterinària, haurien de contenir els txt i els jpg, un de cada per pàgina. No cal incloure els fitxers tiff, ni els pdf.
Hem dividit la càrrega en diferents fases i de moment comencem per els que veiem més fàcils, es tractaria dels següents registres:
http://ddd.uab.cat/record/64330
http://ddd.uab.cat/record/60189
http://ddd.uab.cat/record/29269
http://ddd.uab.cat/record/64331
http://ddd.uab.cat/record/64329
http://ddd.uab.cat/record/60250
http://ddd.uab.cat/record/60188
http://ddd.uab.cat/record/29271
http://ddd.uab.cat/record/60191
http://ddd.uab.cat/record/60190
http://ddd.uab.cat/record/60248
http://ddd.uab.cat/record/71697
http://ddd.uab.cat/record/78738

Moltes gràcies,

Eulàlia

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #3

Eulàlia,

he preparat el mític script que agafa el txt del pdf, el parteix en tants fitxers com hi ha jpg, i els aparella, i finalment en fa un zip.

Ho fet pel primer: http://volum-i.uab.cat/search?q=64330

Em podries dir si et va bé?

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #4

N'he fet uns quants més. No te'ls apunto un per un, vaig fent-los per l'ordre que m'indiques.

CA Actualitzat per Cristina Azorin fa quasi 14 anys Accions #5

Gràcies Ferran, de moment anem traient els zip sense problemes.

Podries mirar què passa amb aquest que només té 9 fitxers jpg?

http://volum-i/veterinaria/anncolofivet/jpg/anncolofivet_a1987m4-6v44n8/

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #6

Espero que només fos perquè el vaig interrompre abans d'acabar mentre feia proves!

L'estic regenerant. Si tornés a passar, si us plau aviseu-me.

ES Actualitzat per Eulàlia Serre fa quasi 14 anys Accions #7

Gràcies, Ferran. He pujat el document sol i funciona però per alguna raó si pujo els documents amb llista tabulada no sembla trobar els fitxers de text. Ho consultaré a la Biblioteca de Catalunya, quin remei! Ja no puc fer més proves.

Eulàlia

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #9

Estic acabant els de la primera petició en aquesta mateixa tasca; quan els acabi començo amb aquests darrers.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #10

Sobre Selecciones avícolas (http://ddd.uab.cat/record/71697):

Fixeu-vos que aquesta revista està buidada a nivell d'article. Per tant, són 1715 conjunts de documents (http://ddd.uab.cat/collection/selavi), no 1. En sou conscients? Ja sabeu com gestionar aquest cas en ContentDM?

D'altra banda, ara mateix encara no puc aparellar els jpg amb els txt. La majoria dels números d'aquesta revista els tenim a la UAB, però uns altres són cedits per la Real Escuela de Avicultura; són els que estan marcats amb @reavicultura. Els números digitalitzats cedits per aquesta escola encara no estan separats per articles, sinó totes les pàgines dels números juntes. Li he demanat al Juan José que me'ls separi, perquè pugui fer l'aparellament. Quan m'ho hagi fet ja els aparellaré per fer-ne el zip.

Aquests zips, si els faig igual que he estat fent per als altres documents, seràn d'article per article. Us anirà bé així?

ES Actualitzat per Eulàlia Serre fa quasi 14 anys Accions #11

Hola Ferran,

ja hem acabat les proves amb la MDC i surt tot molt bé, els registres queden macos i els fitxers txt són cercables.

De moment ves fent el que puguis.

Les revistes que estan buidades per articles les hem deixat per una segona fase perquè ens donaran molta feina, ho sento si se m'ha colat aquest registre, de moment si vols, els pots obviar. Hem pensat que a la MDC carregarem un sol registre, el de la revista, i no el buidat (en registres)de tots els articles, però serà difícil crear les carpetes amb els fitxers per poder-los pujar, ho haurem d'estudiar. Tu ho pots fer com et sigui més fàcil.

Ja ens diràs a mida que vagis fent.

Si vols veure com queden les proves: http://mdc.cbuc.cat/cdm4/document.php?CISOROOT=/provaUAB&CISOPTR=6432&REC=2 (no estic segura de si la col·lecció és pública o no, ho provem i si no pots accedir et demano disculpes).

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #12

Uf, me n'alegro que funcioni! De tota manera, he vist algun cas que es queixa que no hi ha text:

http://mdc.cbuc.cat/cdm4/page_text.php?CISOROOT=/provaUAB&CISOPTR=6025&CISOBOX=0&OBJ=6432&ITEM=101

N'he vist algun altre... En sou conscients?

ES Actualitzat per Eulàlia Serre fa quasi 14 anys Accions #13

Quan pugui em miro aquest que no té text, a veure que ha passat.
Una cosa més, la Meritxell em diu que ha descarregat el zip del registre 29271 (nom de la carpeta: avepa) i es veu que hi ha fitxers txt duplicats i alguns sense contingut. Saps què ha pogut passar?

Fins ara,

Eulàlia

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #14

Em temo que sí. Si no em falla la memòria, aquesta revista està normalitzada a l'antiga, posant-hi p per pàgina, quan més tard vam decidir que era una mala idea, perquè sovint hi ha publicitat, pàgines dobles o làmines i per tant no podem assegurar que el número de pàgines sigui consecutiu, i per tant és millor posar-hi un número seqüencial, que vam decidir que fos precedit pel guionet baix.

Tinc un script per reanomenar-ho automàticament, però ho faré a partir de demà, que no vull córrer i prefereixo pensar-m'ho dos cops.

CA Actualitzat per Cristina Azorin fa quasi 14 anys Accions #15

Ara ja no estem només en proves sinó que ja hem fet càrregues definitives a la MDC, ho pot veure a la col·lecció: http://mdc.cbuc.cat/cdm4/browse.php?CISOROOT=/fonshistvet

El tema de les cerque si els txt funciona perfecte.Podries continuar amb l'extracció per a que anem avançant? Gràcies!!

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #16

Ja he començat; els tres primers ja estan: 60168 60165 60167

Continuo...

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #17

Deixo pendent la II Asamblea nacional veterinaria (http://ddd.uab.cat/record/60160) perquè el PDF està partit en 2 al Clariion però no al Volum-I.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #18

També deixo pendent el Manual práctico de veterinaria doméstica (http://ddd.uab.cat/record/60202) pel mateix motiu.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #19

Em sembla que ja estan tots, menys:

Les explicacions de cadascun dels motius estan més amunt d'aquesta mateixa tasca.

Si me n'he deixat algun altre, si us plau aviseu-me, que amb tantes llistes és ben possible que me n'hagi saltat algun.

CA Actualitzat per Cristina Azorin fa quasi 14 anys Accions #20

Hola Ferran,

ara comencem la segona tongada de documents per entrar al fons. S'haurien de fer els fitxers jpg dels següents registres, quatre llibres llargs:
http://ddd.uab.cat/record/60159 IV Asamblea nacional veterinaria
http://ddd.uab.cat/record/60247 Nuevo tratado de medicina veterinaria
http://ddd.uab.cat/record/60249 Manual del veterinario inspector...
http://ddd.uab.cat/record/72336 Semblanzas veterinarias

Respecte al que tenim pendent:

http://ddd.uab.cat/record/71697: Selecciones avícolas. No la buidarem article per article, només carregarem el registre de la revista i els fitxers a sota, creus que ho podràs fer?

En el cas d'aquests dos no entenc molt bé el problema, tal com està al clariion ja ens va bé, generes els jpg i els txt (en el zip) i llestos. Ja vam parlar d'això quan feiem les divisions de la BDHAH i no veig malament que els fitxers de consulta estiguin dividits i en canvi els altres no, tu trobes que haurien de ser igual?
http://ddd.uab.cat/record/60160: II Asamblea nacional veterinaria
http://ddd.uab.cat/record/60202: Manual práctico de veterinaria doméstica

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #21

Dos més:

CA Actualitzat per Cristina Azorin fa quasi 14 anys Accions #22

Seguint amb les tasques de la Meritxell també voldríem demanar-te de treure algunes imatges més de la BDHAH (allò que feia fa uns mesos), perquè ho va combinant quan la feina de veterinària baixa.

S'han d'extreure les imatges i crear els jpg perquè no hi són al volum-I, els pdf estan repaginats i com que no sabem ben bé com indicar-t'ho la Meritxell els ha obert amb el programa sumatra i et diu les pàgines del fitxer (no les posades manualment):

  • extreure imatges

http://ddd.uab.cat/record/59932 imatges 41-120

http://ddd.uab.cat/record/72359 (tota la part 2: espcomeleart_a1840x2)

http://ddd.uab.cat/record/60041 imatges 44-92

http://ddd.uab.cat/record/59992 imatges 93-117

  • extreure imatges i fer els .jpg

http://ddd.uab.cat/record/60008 imatges 39-79

http://ddd.uab.cat/record/59829 imatges 23-48

http://ddd.uab.cat/record/59611 imatges 72-103

http://ddd.uab.cat/record/59605 imatges 48-77

http://ddd.uab.cat/record/59602 imatges 48-84

http://ddd.uab.cat/record/59600 imatges 48-132

http://ddd.uab.cat/record/59599 imatges 57-108

http://ddd.uab.cat/record/59591 imatges 37-90

http://ddd.uab.cat/record/59590 imatges 52-76

http://ddd.uab.cat/record/56790 imatges 94-121

http://ddd.uab.cat/record/59612 imatges 53-82

http://ddd.uab.cat/record/59626 (imatges estan intercalades amb text) 13,14,16,18,20,22,24,26,28,30,32,34,37,39,41,43,45,47,51,53,55,57,59,61,63,65,67, 69,71,75,77,79,83,85,87,89,91,93,95,97,99,101,105,107,109,111,113,115,117,119,122,124,126,128,130,132,134,136, 138,140, 142,146,148,150,152

FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #23

  • Assignat a ha canviat de Ferran Jorba a Eulàlia Serre

Eulàlia, com que ara ja podeu vosaltres mateixes extreure jpg, cal acabar l'extracció d'imatges de la BDHAH.

CA Actualitzat per Cristina Azorin fa més de 13 anys Accions #24

  • Estat ha canviat de En curs a Tancada

De la BDHAH queden 4 registres per ampliar amb les imatges i el problema era que s'havia de posar l'@, ho farà el Juan José i la Meritxell acabarà l'extracció. Tanquem la tasca.

Accions

També disponible a: PDF Atom