Tasca #2869
tancatWormwood Review: Digitalització i incorporació al DDD
Descripció
Aquesta revista en format paper ens arriba gràcies a Abel Debritto, el seu propietari, i a un projecte que li ha estat concedit per la Generalitat a través del Departament de Filologia Anglesa. Aquest projecte contempla la digitalització i posterior incorporació al DDD.
Fitxers
MB Actualitzat per Merce Bausili fa quasi 12 anys
- S'ha afegit Fitxer 140429_LTO140023_UAB-Filologia anglesa.pdf 140429_LTO140023_UAB-Filologia anglesa.pdf
Pressupost d'Artyplan
MB Actualitzat per Merce Bausili fa quasi 12 anys
- Assignat a ha canviat de Merce Bausili a Cristina Azorin
Abel Debritto ens posa per correu aquesta qüestió
Una pregunta: feu servir arxius MODS o METS/ALTO per el cercador? Per tal de que el contingut dels PDF aparegui al cercador, normalment cal la creació d'uns arxius de metadades (MODS o METS/ALTO). Això també hauria de fer-ho jo i suposo que hauria de parlar amb l'informàtic o la persona encarregada de la gestió de metadades.
Convindria quedar un dia amb la Cristina per parlar de tot el projecte.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
Voldria fer un comentari sobre aquesta digitalització. Val la pena que penseu si la unitat bàsica d'aquesta digitalització serà l'article o el número, és a dir, si cada article tindrà el seu registre bibliogràfic i el seu pdf, i en sortiran uns quants centenars o milers, o de cada número se'n farà un sol pdf, i per tant només tindrem unes dotzenes de pdfs.
Si teniu intenció de «buidar» la revista, per autors i articles, cal la primera opció; si no, la segona. Agafant un parell d'exemples de Veterinària, el resultat seria aquest:
- Cunicultura (http://ddd.uab.cat/record/71696): 1 registre bibliogràfic per la revista, més 1327, un per cada article, i una col·lecció amb les seves estadístiques (http://ddd.uab.cat/collection/cunicultura).
- Avicultura práctica (http://ddd.uab.cat/record/78738): un sol registre bibliogràfic, el de la revista, amb 191 pdfs.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
Pel que fa a la indexació, cal diferenciar per metadades (registre bibliogràfic) o per text complet. Per les metadades, dependrà sobretot de si heu decidit digitalitzar i entrar-ho article per article o no. Si ho feu, també podreu treure llistats per autors, paraules clau o altres camps que hàgiu decidit incloure als registres.
I pel que fa al text complet no, no es fa ni per MODS ni per METS, sinó per l'OCR que tingui el PDF. El MODS i el METS són purament transformacions decoratives del registre MARC21.
MB Actualitzat per Merce Bausili fa quasi 12 anys
- Assignat a ha canviat de Cristina Azorin a Merce Bausili
CA Actualitzat per Cristina Azorin fa quasi 12 anys
Ferran, segons el pressupost que han penjat diu: "En aquest cas com que és un sol títol, es farà un fitxer per cada número, ja que no son gaire extensos, per tant no pesaran i no caldrà partir-los, i dins de cada número els Tiff i els pdf en carpetes separades. Els noms dels fitxers es fixaran abans de començar el projecte". "145 unitats de catalogació".
Mercè, gràcies per penjar el pressupost, però, a més podeu penjar la convocatòria de l'ajut per a saber quina mena de requisits cal complir (a veure si són més raonables que els del Ministerio).
MB Actualitzat per Merce Bausili fa quasi 12 anys
Avui ha vingut l'Abel i li ha agradat molt l'opció de "buidar" la revista. El que passa és que no són articles, sinó poemes, per tant la cosa es complica, perquè ens podem trobar full/fitxer. Hem quedat que la setmana vinent em dirà un parell de dies per triar per poder-nos veure i que us ho ensenyi. Perquè suposo que si ho fem fer tal com ell diu a Artyplan pujarà més.
Ja li demano que em deixi penjar l'ajut. Gràcies
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
En el cas de la revista Cunicultura, per posar el mateix exemple, hi ha una certa quantitat de PDFs de només una pàgina o dues (http://ddd.uab.cat/collection/cunicultura). Entenc que pugui pujar el preu, però sobretot el que és important és que decidiu què voleu, què és el que interessa, per quin motiu es digitalitza aquesta revista. Si el que és rellevant és la unitat article/poema i el seu autor, doncs entenc que calgui fer-ho així.
Com sempre, arreglar-ho després té un cost molt més gran que fer-ho bé d'entrada.
PS En el cas de les revistes de veterinària que es va fer així, les pàgines extres (publicitat, etc), es van afegir a l'article anterior, per no tenir registres «tontos».
MB Actualitzat per Merce Bausili fa quasi 12 anys
Bon dia, Em dia l'Abel si ens podríem veure el dijous cap a les 11 h. Ja vindrem nosaltres, on ens digueu. Gràcies
Ja li torno a recordar si ens pot passar la convocatòria de l'ajut.
CA Actualitzat per Cristina Azorin fa quasi 12 anys
Dijous tinc dues reunions, per mi és impossible.
MB Actualitzat per Merce Bausili fa quasi 12 anys
Ens aniria bé que ens diguéssiu, Ferran i Cristina, quin dia/es us aniria bé i nosaltres ens intentarem adaptar. Gràcies
MB Actualitzat per Merce Bausili fa quasi 12 anys
- Demanar a Artyplan que ens facin una prova amb un sol número (135) i que generin un sol PDF.
- Establir manera de fer-los-hi arribar i recollida.
- Preguntar quines metadades es podrien posar automàticament perquè surtin a tots.
- Un cop tinguem el PDF farem proves de partició.
- El nom del fitxer quedaria segons aquesta forma: wormwood_a1994v34n3i135
MB Actualitzat per Merce Bausili fa quasi 12 anys
Resposta d'Artyplan:
Respecte les metadades diverses qüestions:
§ Quin tipus de metadades voldríeu? Aquesta qüestió no s’havia tractat
§ Si seguim al pressupost i ens passeu una base de dades nosaltres en podríem per exemple incrustar segons esquem Dublin Core:
§ Object name / Title: mateix nom que l’ID del fitxer
§ Creator / Byline: UAB?
§ Contact: mail biblioteca d’humanitats?
§ Podríem trobar també algun camp per exemple per indicar la capçalera de la revista
§ En tot cas, aquestes metadades quan generéssiu els PDF no us apareixerien i caldria tornar-les a incrustar
Em diu l'Abel que ja havien quedat que no farien PDF, i que el preu final no varia, no li servirien gaire perquè vol fer l'OCR 100% verificat, i això implica que haurà de tornar a crear els PDF. En tot cas només el farien per a aquest número.
Pel que fa las metadades, pel que diu Artyplan s'haurien d'incrustar de nou si genera l'Abel de nou els PDF, amb la qual cosa només quedarien incrustats a les imatges .tiff (crec que això és el que diu Artyplan). Si el programa incrusta aquestes metadades de manera automàtica i el preu final no canvia, valdria la pena tindre aquestes metadades a les imatges .tiff.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Hem fet algunes proves de conversió a Marc21 els registres en format MODS que ens dóna l'Abel Debritto:
http://ddd-test.uab.cat:2000/search?f=publication&p=Wormwood%20Review
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Ja t'he carregat al DDD de proves tots registres amb els PDFs corresponents de la Wormwood Review que l'Abel Debritto ens ha passat fins avui.
http://ddd-test.uab.cat:2000/record/136870
He tingut alguns dubtes que he resolt una mica tirant pel dret, com per exemple que la numeració correlativa (l'issue, en aquest cas) només apareix en els noms dels PDFs, però no en els registres bibliogràfics. Per tant, he eliminat la referència en els noms dels fitxers PDF. Ho podem recuperar si cal.
Em queda també resoldre bé la referència al número de pàgina. He fet un exemple al Vol. 5 n. 2
(http://ddd-test.uab.cat:2000/search?cc=wormwood&f=issue&p=wormwood_a1965v5n2&rg=100&sf=fpage&so=a&ln=ca),
on el poema de la p. 10 (Bleaching, http://ddd-test.uab.cat:2000/record/136327), la URL fa referència a la
pàgina 10, i funciona. Però ara mateix això fa que la miniatura no es vegi.
Em queden també els textos de les llicències i una repassada final per part de la Biblioteca d'Humanitats i la Cristina Azorín.
FJ Actualitzat per Ferran Jorba fa més de 10 anys
- Estat ha canviat de Creada a En curs
FJ Actualitzat per Ferran Jorba fa més de 10 anys
- Assignat a ha canviat de Merce Bausili a Ferran Jorba
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Després de fer unes quantes proves, per exemple les que he explicat a la meva darrera actualització, voldria fer un resum de la situació i una proposta.
D'una banda, és necessari que cada registre (obra, poema) tingui el PDF corresponent, sigui d'una pàgina, més d'una, o fins i tot de part de la pàgina. Per tant, cal partir els PDFs en pàgines. No crec que sigui bo partir-lo en parts de pàgines. Cada PDF tindrà el nom corresponent al número amb l'afegit de la lletra p i el número de pàgina (ex: wormwood_a1965v5n4p11.pdf). Aquest número de pàgina s'ha de correspondre al que es veu en el PDF, que no sempre és el número de pàgina corresponent del fitxer PDF. Si un fitxer té més d'una pàgina, no ho indiquem en el nom del fitxer, només indiquem la primera. Amb això aconseguim que a cada registre es pugui visualitzar la miniatura de la pàgina i porti a l'obra corresponent.
Proposo que aquesta partició dels PDFs ho faci el propi Abel Debritto.
La prova que havia volgut fer a l'accés directe a una pàgina del PDF afegint-hi un paràmetre a la URL (ex: http://ddd.uab.cat/pub/wormwood/wormwood_a1965v5n2.pdf#page=10) té l'inconvenient que molta de la infrastructura basada en l'extensió del fitxer (ex., les miniatures, estadístiques per fitxer, ocr) fallarien. De fet, ara mateix no se'n veu cap, de miniatura, ni del PDF sencer ni de la pàgina corresponent (ex: http://ddd-test.uab.cat:2000/record/136327).
Finalment, pel que fa a la petició de poder accedir als números sencers, la meva proposta és la següent: aprofitar el registre que té la coberta perquè el seu PDF sigui de tot el PDF, no només de les dues primeres pàgines. Segurament això hauria d'estar reflectit d'alguna manera al registre, però ara mateix no tinc cap proposta concreta.
He consultat aquesta proposta amb la Cristina Azorín i d'entrada hi està d'acord.
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Algú em podria dir quina és la llicència d'aquests documents? Gràcies.
NG Actualitzat per Nuria Gallart fa més de 10 anys
L'Abel ens ha enviat tots els permisos dels autors i donen cobertura a un ús acadèmic i de consulta privada. Haurem de revisar si hi ha alguna excepció o algun detall de mencions especials. La filla de l'editor també dóna el seu permís per a la publicació amb finalitats acadèmiques.
Això crec que apunta cap a un 'Drets reservats', consulta oberta com l'Arxiu del Lixeu. Ho acabarem d'estudiar i t'ho direm.
AE Actualitzat per Ana Escañuela fa més de 10 anys
L'Abel ha trobat bé la proposta de drets següent:
540 __ $a Còpia permesa amb finalitat d'estudi o recerca, citant la font "Universitat Autònoma de Barcelona". Per a qualsevol altre ús cal demanar autorització. $u http://www.europeana.eu/rights/rr-f/
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Ja he partit els pdfs per articles automàticament, i els enllaços fets. No ha estat tant trivial com semblava perquè, malhauradament, el número de pàgines a la coberta i de guarda no sempre són les mateixes. Fins on he estat capaç de verificar-ho, són aquestes:
- Issue 1: 4
- Issues 2 i 3: 3
- La resta: 2
A més a més, alguns dels primers números no estan paginats. Per tant, no puc confirmar que no hi hagi errors. Haurem de verificar-ho sistemàticament.
També he afegit l'etiqueta de drets tal com m'heu indicat.
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Ja he carregat la resta que m'ha passat l'Abel, els vols. 6 a 9:
NG Actualitzat per Nuria Gallart fa més de 10 anys
- L'ordre de les pàgines no és correcte.
- Es repeteixen al final de cada número fitxers complets de tot el número.
Del primer tema, vas dir que ja sabies com arreglar-ho.
Del segon, si s'ha d'arreglar manualment, caldria fer-ho de seguida que es carregui.
NG Actualitzat per Nuria Gallart fa més de 10 anys
L'Abel Debritto voldria usar els primers fitxers ja preparats per a les seves classes.
Podríem passar els fitxers del ddd-test al definitiu?
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Ja m'hi poso.
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Estic vigilant que quedi tot bé i prefereixo assegurar-me'n.
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Acabo de carregar els registres al DDD públic: http://ddd.uab.cat/record/140412. Fins demà no s'acabarà de veure bé, i per tant millor no remenar-ho gaire encara.
Aquesta nit s'afegiran els subcamps $p i $s (número de pàgines i tamany dels fitxers) a cada registre, i això facilitarà molt distingir (sobretot) els PDFs que tinguin números sencers dels altres. També haurien de quedar ben ordenats numèricament pel número de pàgina.
Tot i que crec que no hi ha grans errors, sé que cal fer una feina una mica artesanal per a cada número, al menys en aquests aspectes:
- Confirmar el tractament dels registres que tinguin el número sencer. Quin títol tenen, com es descriuen? Hauria de ser el primer de cada número, no?
- Repassar manualment una mostra de cada registre que l'obra catalogada correspongui a la pàgina del PDF extreta. Fins on ho he comprovat jo, funciona, però cal vigilar-ho més.
- Repassar els registres amb número de pàgina no numèrica (ex. A, B, C, D)
- Potser caldrà fer algun canvi global en etiquetes concretes, com la 599, on hi he posat [Poetry] i segurament no és correcte.
AE Actualitzat per Ana Escañuela fa més de 10 anys
Hola Ferran,
L’Abel demana que a la pantalla intermitja (la que desplega tots els articles d’un número concret), al número sencer hi aparegui una notat que digui "Clicking on the cover will open the full issue"
Si fem la nota amb una 500 no surt en aquesta pantalla intermitja. Si la fem amb una 520 (de resum), sí que hi apareix. El problema és que a la fitxa de l’article es veuria, com a mínim, rarot:
Resum: Clicking on the cover will open the full issue
Ell voldria que a la fitxa de l’article aquesta informació també aparegui separada del que seria la descripció del document.
Tenim alguna altra nota parametritzada per a què aparegui a la pantalla intermitja?
Si ho poguéssim fer es podria fer d’una manera automàtica?
AE Actualitzat per Ana Escañuela fa més de 10 anys
Un altre tema:
Als registres dels articles hi apareix la següent nota de drets:
540 __ $a Còpia permesa amb finalitat d'estudi o recerca, citant la font "Universitat Autònoma de Barcelona". Per a qualsevol altre ús cal demanar autorització. To be used for research and scholarly purposes only. Permission is required for any other use. $u http://www.europeana.eu/rights/rr-f/
Caldria separar-la en dues notes, en català i en anglès, tal i com apareix al registre de la revista https://ddd.uab.cat/record/140412 :
540 __ $a Còpia permesa amb finalitat d'estudi o recerca, citant la font "Universitat Autònoma de Barcelona". Per a qualsevol altre ús cal demanar autorització. $u http://www.europeana.eu/rights/rr-f/
540 __ $a To be used for research and scholarly purposes only, citing the source "Universitat Autònoma de Barcelona". Permission is required for any other use. $u http://www.europeana.eu/rights/rr-f/
S’hauria de fer automàticament per a tots els registres.
Moltíssimes gràcies, Ferran, com sempre.
CA Actualitzat per Cristina Azorin fa més de 10 anys
Bon dia,
pel tema de la pantalla intermitja no tinc resposta, ho sento, li deixo al Ferran. El tema dels drets jo el faria en etiquetes separades. Tot i que penso que no cal posar-ho en anglès. Quan cliques a sobre de la icona d'europeana ja va a la versió anglesa.
Un parell de comentaris del registre que acabo de veure (https://ddd.uab.cat/record/140412), sento també no haver-me fixat abans.
El ISSN està repetit?
022 __ $a 0043-9401 $l 0043-9401
Es pot treure el cop. de la segona data? No aporta res i ens dóna molts problemes per seguir estàndards de recol·lectors.
260 __ $a Stockton, Calif. : $b Wormwood Books & Magazines, $c 1960-cop. 1999
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Ana Escanuela va escriure:
Hola Ferran,
L’Abel demana que a la pantalla intermitja (la que desplega tots els articles d’un número concret), al número sencer hi aparegui una notat que digui "Clicking on the cover will open the full issue"
[...]
Tenim alguna altra nota parametritzada per a què aparegui a la pantalla intermitja?
No, però segurament seria una bona idea. De fet, a la col·lecció de mapes de la Guerra Civil (http://ddd.uab.cat/collection/mapesgce) ja vam haver de forçar una mica la nota de resum perquè aparegués a la pantalla intermitja. Teniu algun suggeriment perquè fos vàlid (si és possible) per a tots dos casos?
http://www.loc.gov/marc/bibliographic/bd5xx.html
Si ho poguéssim fer es podria fer d’una manera automàtica?
En principi, sí.
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Cristina Azorin va escriure:
El tema dels drets jo el faria en etiquetes separades. Tot i que penso que no cal posar-ho en anglès. Quan cliques a sobre de la icona d'europeana ja va a la versió anglesa.
A mi l'Abel també m'ha demanat per correu que se separin en dues notes. De fet, m'havia demanat que aparegués la nota segons l'idioma de la consulta, però ja li vaig escriure que, com que és un text que forma part del registre bibliogràfic, no és fàcil fer-ne aquest comportament.
Suposo que el fet que aparegui específicament (també) en anglès és per l'audiència esperada i, segurament també, perquè els autors i editors puguin comprovar les condicions com ho publiquem. Donat que part d'ells encara són vius, segurament és un detall que convé tenir amb ells.
CA Actualitzat per Cristina Azorin fa més de 10 anys
- Paraula clau s'ha establert a JR
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Pel que fa a la nota que aparegui a la pantalla intermitja, què us sembla la 556? Serviria tant per a Wormwood com pels mapes de la Guerra Civil?
CA Actualitzat per Cristina Azorin fa més de 10 anys
- Categoria s'ha establert a Gestió de la col·lecció
Per mi ok!!
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Cristina Azorín va escriure:
Per mi ok!!
Ferran Jorba va escriure:
Pel que fa a la nota que aparegui a la pantalla intermitja, què us sembla la 556? Serviria tant per a Wormwood com pels mapes de la Guerra Civil?
M'ho estava mirant, i voldria esmenar-me a mi mateix. De 556 no en teníem cap (fins el que hi ha de proves, https://ddd.uab.cat/record/142403), però, per tal com funciona el formateig dels registres a Invenio, n'he de fer un tractament específic. Ara bé, hi ha una altra etiqueta, la 505, de nota de contingut (http://www.loc.gov/marc/bibliographic/bd505.html), que ja la tracto a part perquè ha d'aparèixer amb una etiqueta diferent (ex: https://ddd.uab.cat/record/7834).
Si de cas, en faig la prova i mirem el resultat.
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Com ho veieu?
https://ddd.uab.cat/search?cc=wormwood&f=issue&p=wormwood_a1959v1n1i1
Son dues preguntes:
- Considereu correcte la 505 (http://www.loc.gov/marc/bibliographic/bd505.html) en comptes de la 556 (http://www.loc.gov/marc/bibliographic/bd556.html)?
- El resultat és el que s'espera?
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Ja està afegida a tots els registres una segona nota de drets amb el text en anglès que em comentàveu, ex:
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Tan a l'Abel (per correu) com a la Cristina els sembla bé la solució que he proposat.
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Sobre l'ordenació de les pàgines amb lletres (A, B, C) i les numerades, estic provant una solució que està fucionant bé, però que val la pena que la documenti.
L'ordenació dels diferents registres d'una revista buidada en articles (com no deixa de ser el cas de Wormwood), és pel 973 $f (first page). Si visualitzem camp hi veiem aquests valors:
http://ddd.uab.cat/search?cc=wormwood&of=tm&ot=973&rg=999
D'una banda, diàriament hi ha un procediment que, si el valor del $f és numèric hi afegeix zeros fins a quatre xifres. Aleshores, com fer que unes lletres vagin davant del 0001 i altres al final? Doncs estic veient que, si volem, per exemple, que la A vagi primer, podem posar-hi 0000.A, i si la G va al final, agafem el darrer número de pàgina (ex., 0037) i li afegim després d'un punt: 0037.G.
Ho estic fent copiant i enganxant a l'aplicació de canvis globals de les etiquetes 973 anteriors i posteriors al registre que estic corregint a partir del llistat de 973 enllaçat més amunt, trosset a trosset.
És una mica artesanal, però tot el tractament d'aquesta revista ja ho és, una miqueta especial ;-)
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Tal com havíem quedat amb l'Abel Debritto, he fet una prova de tractar directament les pàgines tal com ell me les havia etiquetades directament al PDF (el que tècnicament se'n diu Page Labels). M'ha passat el issue 36, i crec que funciona correctament:
http://ddd-test.uab.cat:2000/record/136870
Segurament, també en aquest cas caldrà una mica de vigilància i retoc artesanal posterior, però espero menys que fins ara.
FJ Actualitzat per Ferran Jorba fa quasi 10 anys
Actualitzo la tasca, perquè no ho estava fent. Hem estat fent càrregues a partir dels fitxers pdf i mods que m'ha esta passant l'Abel Debritto amb una certa periodicitat, i cada cop surten més automàtiques, tot i que cal repassar-ho a mà.
De fet, ara ja són 106 issues, i els seus corresponents 6585 registres, que no està gens malament!
NG Actualitzat per Nuria Gallart fa més de 9 anys
Thank you, thank you, thank you...
http://blogs.uab.cat/wormwoodreviewproject/2016/06/26/thank-you-thank-you-thank-you/
Bona feina, Ferran!
CA Actualitzat per Cristina Azorin fa aproximadament 9 anys
- Paraula clau s'ha suprimit (
JR)
FJ Actualitzat per Ferran Jorba fa quasi 9 anys
- Estat ha canviat de En curs a Tancada
Finalment, entre ahir i avui hem carregat els darrers 2.210 registres amb els seus corresponents pdfs que completen la col·lecció:
Com sempre, amb un volum tan gran, el més probable és que hi hagi algun error, i entenc que caldria un repàs més sistemàtic, però d'entrada, totes les cates que he fet han resultat correctes.