Millora #470
tancatAutomatitzar la incorporació de les tesis del TDX al DDD
Descripció
Podriem provar el següent:
- Incorporem el TDX com a proveidor OAI al DDD.
- Les tesis s'aniran donant d'alta automàticament a la col·lecció corresponent.
- Copiarem els PDFs també automàticament.
- Periòdicament, una persona comprovarà si estan al catàleg Millennium exportant-los en MARC i automàticament farem una actualització que millorari el registre del DDD amb els camps que vinguin del catàleg, però conservant els que no hi siguin (ex., el resum).
A partir de la instal·lació de la versió 0.99, perquè la conversió Dublin Core a Marc21 està més treballada.
En aquesta tasca també documentarem les càrregues del del nou programari DSpace del TDX, el procediment d'extracció del catàleg seguirà sent el mateix.
Atenció perquè hi ha oberta una altra tasca per a fer el mateix #1162
Fitxers
Tasques relacionades 4 (0 obertes — 4 tancades)
CA Actualitzat per Cristina Azorin fa quasi 17 anys
Milestone 'Càrrega de nous documents' deleted
FJ Actualitzat per Ferran Jorba fa més de 16 anys
- Prioritat ha canviat de medium a high
FJ Actualitzat per Ferran Jorba fa més de 16 anys
- Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD a Automatitzar la incorporació de les tesis del TDX al DDD. OCTUBRE09
FJ Actualitzat per Ferran Jorba fa més de 16 anys
- Tipus de tasca ha canviat de Tasca a Millora
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Pendent de l'actualització de programari, tasca #
FJ Actualitzat per Ferran Jorba fa aproximadament 16 anys
- Assignat a ha canviat de Ferran Jorba a Cristina Azorin
FJ Actualitzat per Ferran Jorba fa aproximadament 16 anys
Ahir vaig estar treballant a partir de l'exportació OAI Dublin Core del TDX. Els resultats són els que són, i ja sabíem que els hauríem de completar amb els de Millennium.
De tota manera, ara m'estava plantejant si no seria millor fer-ho a l'inrevés: a partir d'unes «novetats» de Millennium (cercant «TDX»), agafar la resta d'informació (resum, director de la tesi i PDFs) del TDX. P. ex:
Això ho dic perquè des del Millennium tenim la identificació TDX (a partir de la URL), però no a l'inrevés. Aquest identificador Millennium també ens interessa tenir-lo al DDD. Així tindriem una catalogació de qualitat, ja en Marc21, i només hi afegiriem el parell o tres de coses que no estiguin a Millennium, en comptes de fer conversions més o menys aproximades des de Dublin Core i després «millorar» el registre sobreescrivint algunes etiquetes, que segur que és més difícil de fer i de resultat pitjor.
Les preguntes són:
- Cristina, et sembla una bona estratègia?
- Podem fer una extracció automàtica i periòdica (ex., mensual) dels registres de tesis de la UAB des de Millennium i ja en Marc21?
CA Actualitzat per Cristina Azorin fa aproximadament 16 anys
- Assignat a ha canviat de Cristina Azorin a Ferran Jorba
CA Actualitzat per Cristina Azorin fa aproximadament 16 anys
Ferran,
l'Òskar em confirma que no hi ha cap problema per a fer exportacions periòdiques des del catàleg, amb data d'entrada per a cada mes i amb l'etiqueta 730 que digués TDX. Es genera un fitxer en format MARC i es podria deixar a 'Intercambio de datos' del Millennium. Em sona que ja ho havíem fet servir amb la Bea. T'aniria bé?
A mi em sembla molt bé exportar des de Millennium i després completar amb l'HTML. Si vols concretar més caldrà parlar amb l'Òskar. Com a prova ell farà una extracció de gener a març i veiem com va.
CA Actualitzat per Cristina Azorin fa aproximadament 16 anys
El nom del fitxer serà TDX_DDD
FJ Actualitzat per Ferran Jorba fa aproximadament 16 anys
Cristina, millor que de moment m'envieu tot el 2009 del TDX. Què vol dir 2009? No ho sé. Catalogat el 2009, o presentat al 2009... Hauria de casar amb el camp Date del OAI del TDX.
Tinc pensat descartar duplicats, de manera que no hauríem de tenir problemes, però millor «acabar» el 2009.
OH Actualitzat per Oskar Hernández fa aproximadament 16 anys
Hola Ferran, tal i com em demanaves al teu correu t'adjunto dos fitxers amb l'extracció dels registres catalogats el 2009 que es van entrar al TDX. Un dels fitxers és el que Millennium genera per defecte (.out) i l'altre és aquest mateix fitxer transformat en format MARC (.mrc) amb el MarcEdit (http://people.oregonstate.edu/~reeset/marcedit/html/index.php).
La segona qüestió que comentaves al correu ("A la llarga, el que m'interessarà és que es faci sense intervenció manual, i per tant, estaria molt millor que el fitxer el pogués recollir un script via http o ftp, sense haver d'entrar a Millennium via interfície gràfica."), quan arribi el moment, millor que ho parlem amb en Javier Planella perquè jo no tinc els coneixements informàtics per gestionar una actuació d'aquest tipus.
Salut!
FJ Actualitzat per Ferran Jorba fa quasi 16 anys
Ja he avançat amb el script que ho farà a partir de Millennium. Ja tinc fets aquests passos:
- A partir d'un fitxer Marc de Millennium, fer les transformacions pequè sigui vàlid pel DDD (ex., passar la 001 a 035 o afegir la 980)
- Agafar tots els identificadors TDX del TDX.
- Recollir, via GetRecord (http://www.openarchives.org/OAI/openarchivesprotocol.html#GetRecord) els registres en Dublin Core
- Normalitzar els diacrítics i el XML
Queda pendent la millora del registre de Millennium amb l'abstract i algun camp més (ex., directori de tesi) del TDX, recollir els documents i fer la càrrega.
FJ Actualitzat per Ferran Jorba fa quasi 16 anys
Pendent de confirmar les les 700 i 710 (tasca # .
FJ Actualitzat per Ferran Jorba fa quasi 16 anys
Els abstracts no es poden agafar del OAI DC, perquè alguns caràcters mal picats (ex., un accent tancat en comptes d'un apòstrof) desapareixen en l'exportació OAI. En HTML, al menys hi són i es poden confirmar. Cerque, p. ex., el cas de «lobjectiu» a la tasca # que se m'ha tornat a donar ara un munt de cops.
En tot cas, el HTML original el guardo amb el nom tdx.html al mateix directori de cada tesi, o sigui que la informació ja me l'havia baixada (ex. http://ddd.uab.cat/pub/tesis/2003/tdx-1113103-145811/). També, evidentment, recuperaré el mètode per «arreglar» aquests caràcters igual que aquella primera càrrega.
FJ Actualitzat per Ferran Jorba fa quasi 16 anys
Acabo de fer la càrrega de les primeres 10 tesis del fitxer de 302:
http://ddd.uab.cat/collection/tesisuab
No les he carregades totes perquè en la instància de proves la indexació, que ara inclou el text complet, va durar unes quantes hores i no he volgut tenir el DDD bloquejat tanta estona.
Aquesta primera càrrega inclou:
- Adaptació del registre Marc21 de Millennium al DDD (bàsicament 001 -> 035 i creació de la 980).
- Baixar el registre Dublin Core via OAI del TDX.
- Baixar els fitxers PDF del TDX al DDD, creació de miniatures, etc.
- Incloure-hi també amb el nom tdx.html la pàgina HTML original del TDX, normalitzant la barreja de diacrítics originals per UTF-8. Aquesta és l'única manera d'agafar l'abstract correcte per afegir-lo al DDD.
- Afegir aquesta abstract com a 520.
- Afegir les 856 amb els PDFs locals.
De moment no hi he afegit les 7XX perquè no veig clar el resultat de la tasca #
FJ Actualitzat per Ferran Jorba fa quasi 16 anys
Acabo de carregar-ne dos conjunts més: una de 10 registres i l'altre de 100. La càrrega l'he de fer en dos passos: primer la dels registres Millennium, i després la resta de la informació del TDX, perquè fins que no s'han indexat els registres nous no és possible cercar per l'identificador TDX. Un cop estan indexats i creats a la col·lecció pendent (http://ddd.uab.cat/collection/pendent) aleshores els hi afegeixo les 520 i 856.
He de mirar de quina manera ho puc automatitzar, i fer-ho de manera que funcioni amb la futura migració del TDX a DSpace.
FJ Actualitzat per Ferran Jorba fa quasi 16 anys
Ja estan totes les 302 tesis carregades. N'hi havia unes 100 que ja hi eren, i ja tenien la 530 i les 856, o sigui que no les hi he fet res. Les 200 noves són els registres de Millennium afegint-li els abstracts del TDX i les URLs locals.
Continuo sense afegir-hi les 7XX fins que no veiem bé la tasca #
FJ Actualitzat per Ferran Jorba fa quasi 16 anys
Cristina o Òskar,
necessitaria una nova extracció de tesis TDX de Millennium, tal qual surt de Millennium en iso2709, sense passar-lo per cap Marcedit o similar. Afegiu-me'l a aquesta tasca amb el nom TDX_a2010m4.out. Es tractaria de la continuació del fitxer TDX2009.out; per tant, jo faria una cerca per totes les tesis catalogades a partir del 2010.
OH Actualitzat per Oskar Hernández fa quasi 16 anys
Hola Ferran,
Acabo de penjar el fitxer. Tal i com indicaves, l'he penjat tal qual surt de Millennium. La base de la cerca és la que proposaves: tesis electròniques catalogades entre 01/01/2010 i fins el dia d'avui amb una 730 TDX.
Fins aviat!
FJ Actualitzat per Ferran Jorba fa quasi 16 anys
Ja he fet la càrrega dels 59 registres.
Continuo sense afegir-hi les 7XX fins que no veiem bé la tasca #
FJ Actualitzat per Ferran Jorba fa més de 15 anys
Aquest tema el vam estar tractant amb el Javier Planella el mes de juliol. Donat que el circuit és agafar primer els registres de Millennium, per després completar la informació del TDX (sobretot abstract i director), l'automatització passa per recollir automàticament aquesta informació a partir de les novetats generades a partir de Millennium.
Amb el Javier vam quedar d'aquesta manera. He d'agafar els registres a partir d'aquestes adreces:
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=gener&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=febrer&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=mar%E7&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=juny&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=juliol&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=agost&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=setembre&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=octubre&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=novembre&format=tesis
- http://websb.uab.cat/novesadquisicions/llistat_format.php?mes=desembre&format=tesis
Aquestes adreces es van reutilitzant rotativament a mesura que passen els anys, és a dir, que només és accessible el darrer mes corresponent.
A partir d'aquests registres, recollor el registre complet a Millennium. P. ex., el registre de la pàgina HTML m'adreça a http://cataleg.uab.cat/record=b1810151~S1*cat .
Malhauradament, no sembla possible que Millennium em retorni un registre Marc21 a partir d'una adreça web com aquesta. Existeix un pseudo-marcxml que es fa posant-hi un x abans de record (http://cataleg.uab.cat/xrecord=b1810151~S1*cat) però no és un Marc21 estàndard.
D'altra banda, he vist que no tots els registres de Tesis apunten a la versió TDX, o sigui que he de vigilar de carregar només els que tenen la versió digital.
Així és com ens vam quedar abans de vacances.
FJ Actualitzat per Ferran Jorba fa més de 15 anys
Els registres exportat amb el format xrecord tenen, a més, l'inconvenient que els diacrítics no estan en UTF-8, sinó en aquesta convenció de Millennium (ex Guzm{u00E1}n per dir Guzmán, vegeu http://cataleg.uab.cat/xrecord=b1810151).
Per tant, m'estic tornant a mirar les exportacions via Web. Però per algun motiu, m'estic trovant que els registres iso2709 són erronis. Yaz-marcdump (versions 3.0.34 i 4.0.12) em donen molts errors, a més d'un registre en més d'un fitxer i en més d'una exportació:
<record>
<leader>01474nam a2200373 a 4500</leader>
<!-- Directory offset 372: Bad value for data length and/or length starting -->
<controlfield tag="001">0</controlfield>
<!-- Separator but not at end of field length=11 -->
<controlfield tag="001">1</controlfield>
<!-- Separator but not at end of field length=12 -->
<controlfield tag="007"> </controlfield>
<!-- Separator but not at end of field length=15 -->
<controlfield tag="008">|</controlfield>
<!-- Separator but not at end of field length=41 -->
<controlfield tag="009">c</controlfield>
<!-- Separator but not at end of field length=15 -->
<datafield tag="020" ind1="1" ind2="">
<subfield code=" "></subfield>
<subfield code="a">97884690403</subfield>
</datafield>
<!-- No separator at end of field length=18 -->
<datafield tag="035" ind1="0" ind2="">
<subfield code=" "></subfield>
<subfield code="a">9788469040300</subfield>
<subfield code="9">ES-BaUAB0</subfield>
</datafield>
<!-- No separator at end of field length=31 -->
<datafield tag="035" ind1="1" ind2="">
<subfield code=" "></subfield>
<subfield code="a">0783-69560</subfield>
<subfield code="9">ES-BaUAB0</subfield>
</datafield>
<!-- No separator at end of field length=28 -->
<datafield tag="080" ind1="5" ind2="">
<subfield code=" "></subfield>
<subfield code="a">57(0.03</subfield>
</datafield>
<!-- No separator at end of field length=14 -->
<datafield tag="100" ind1=")" ind2="">
<subfield code=" "></subfield>
<subfield code="a">Bech i Serra, Joan Jose</subfield>
</datafield>
<!-- No separator at end of field length=30 -->
<!-- Directory offset 144: Data out of bounds 81876 >= 1474 -->
</record>
FJ Actualitzat per Ferran Jorba fa més de 15 anys
Li demanaré al Javier per si es pot programar una tasca que generi els registres Marc d'intercanvi en iso2709.
FJ Actualitzat per Ferran Jorba fa més de 15 anys
- Assignat a ha canviat de Ferran Jorba a Javier Planella
FJ Actualitzat per Ferran Jorba fa més de 15 anys
- Estat ha canviat de Creada a Tancada
FJ Actualitzat per Ferran Jorba fa més de 15 anys
Ja està. El Javier m'ha muntat la pàgina http://websb.uab.cat/novetats_tdx/ amb les extraccions mensuals dels registres TDX del catàleg.
Per part del DDD, la càrrega es fa en dues fases, com el Recercat. En una primera fase es carreguen els registres bibliogràfics; en el cas de les tesis, de Millennium a partir dels registres que em genera el Javier, i els col·loco a la col·lecció Pendent. En la segona fase s'enriqueixen amb les dades Dublin Core del TDX, es baixen els PDFs, es generen les miniatures i es publiquen a la col·lecció Tesis.
En el cas del DDD, les càrregues es fan en cap de setmana.
CA Actualitzat per Cristina Azorin fa més de 13 anys
- Estat ha canviat de Tancada a En curs
CA Actualitzat per Cristina Azorin fa més de 13 anys
- Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD. OCTUBRE09 a Automatitzar la incorporació de les tesis del TDX al DDD
CA Actualitzat per Cristina Azorin fa més de 13 anys
Comencem a fer una càrrega manual de les tesis a partir de les extraccions mensuals de Millennium. Farem la primera prova amb maig 2011.
En les properes càrregues automàtiques cal pensar a passar l'etiqueta 540 de drets.
Hem fet la consulta sobre el mapeig que fa servir el CCUC per a passar les tesis de TDX al catàleg, quan tinguem una resposta l'afegirem a aquesta tasca.
CA Actualitzat per Cristina Azorin fa més de 13 anys
- Prioritat ha canviat de Alta a Baixa
CA Actualitzat per Cristina Azorin fa més de 13 anys
- Assignat a ha canviat de Javier Planella a Ferran Jorba
NC Actualitzat per Núria Casaldaliga fa més de 12 anys
- Paraula clau s'ha establert a JR
NC Actualitzat per Núria Casaldaliga fa més de 12 anys
- Data de venciment s'ha establert a 31-12-2013
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys
- Prioritat ha canviat de Baixa a Normal
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys
- Data de venciment ha canviat de 31-12-2013 a 27-06-2014
NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys
- Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD a Automatitzar la incorporació de les tesis del TDX al DDD - PRJ 152
NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys
- Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD - PRJ 152 a Automatitzar la incorporació de les tesis del TDX al DDD - PRJ152
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys
- Paraula clau ha canviat de JR a JR catera
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys
- Paraula clau ha canviat de JR catera a JR cartera
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Data de venciment ha canviat de 27-06-2014 a 19-12-2014
- Prioritat ha canviat de Normal a Alta
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Ahir vam tenir la primera reunió amb el Javier per coordinar les tasques d'identificació i càrrega de les tesis del TDX.
Hem quedat, que el fluxe serà com estem fent amb altres repositoris amb OAI: deixar que Invenio recol·lecti els registres via OAI i en faci una primera càrrega, possiblement en Dublin Core i en una col·lecció amagada, per després enriquir els registres amb dades de Millennium, que el Javier extraurà mensualment.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD - PRJ152 a Automatitzar la incorporació de les tesis del TDX al DDD
- Estat ha canviat de En curs a Tancada
- Paraula clau s'ha suprimit (
JR cartera)
Tanco aquesta tasca, que es refereix a l'antic sistema pre-DSpace. Per tractar el cas del TDX en DSpace ja hi ha la #1162, que és la que quedarà oberta.
CA Actualitzat per Cristina Azorin fa quasi 5 anys
- S'ha afegit relacionat amb Tasca #6444: Reorganitzar la càrrega de tesis de TDX