Projecte

General

Perfil

Accions

Millora #470

tancat
FJ FJ

Automatitzar la incorporació de les tesis del TDX al DDD

Millora #470: Automatitzar la incorporació de les tesis del TDX al DDD

Afegit per Ferran Jorba fa quasi 17 anys. Actualitzat fa més de 11 anys.

Estat:
Tancada
Prioritat:
Alta
Assignat a:
Inici:
Data de venciment:
19-12-2014
Paraula clau:

Descripció

Podriem provar el següent:

  • Incorporem el TDX com a proveidor OAI al DDD.
  • Les tesis s'aniran donant d'alta automàticament a la col·lecció corresponent.
  • Copiarem els PDFs també automàticament.
  • Periòdicament, una persona comprovarà si estan al catàleg Millennium exportant-los en MARC i automàticament farem una actualització que millorari el registre del DDD amb els camps que vinguin del catàleg, però conservant els que no hi siguin (ex., el resum).

A partir de la instal·lació de la versió 0.99, perquè la conversió Dublin Core a Marc21 està més treballada.

En aquesta tasca també documentarem les càrregues del del nou programari DSpace del TDX, el procediment d'extracció del catàleg seguirà sent el mateix.

Atenció perquè hi ha oberta una altra tasca per a fer el mateix #1162


Fitxers

TDX2009.out (389 KB) TDX2009.out Fitxer que genera Millennium Oskar Hernández, 22-03-2010 13:11
TDX2009.mrc (389 KB) TDX2009.mrc Fitxer en format MARC21 Oskar Hernández, 22-03-2010 13:12
TDX_a2010m4.out (70.3 KB) TDX_a2010m4.out TDX 2010: tesis catalogades el 2010 Oskar Hernández, 26-04-2010 10:47

Tasques relacionades 4 (0 obertes4 tancades)

relacionat amb DDD - Tasca #1162: Adaptar la recol·lecta de les tesis del sistema antic a DSpace - PRJ152TancadaFerran Jorba28-04-2016Accions
relacionat amb DDD - Tasca #2736: Substituir les 856 de les tesis de l'antic sistema del CBUC amb les noves del DSpaceTancadaFerran Jorba10-03-201401-11-2014Accions
relacionat amb DDD - Tasca #3010: Detectar i carregar les tesis que estan al TDX i no al DDDTancadaFerran Jorba17-07-2014Accions
relacionat amb DDD - Tasca #6444: Reorganitzar la càrrega de tesis de TDXTancadaFerran Jorba03-05-202130-07-2021Accions

CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #1

Milestone 'Càrrega de nous documents' deleted

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #2

  • Prioritat ha canviat de medium a high

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #3

  • Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD a Automatitzar la incorporació de les tesis del TDX al DDD. OCTUBRE09

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #4

  • Tipus de tasca ha canviat de Tasca a Millora

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #5

Pendent de l'actualització de programari, tasca #

FJ Actualitzat per Ferran Jorba fa aproximadament 16 anys Accions #6

  • Assignat a ha canviat de Ferran Jorba a Cristina Azorin

FJ Actualitzat per Ferran Jorba fa aproximadament 16 anys Accions #7

Ahir vaig estar treballant a partir de l'exportació OAI Dublin Core del TDX. Els resultats són els que són, i ja sabíem que els hauríem de completar amb els de Millennium.

De tota manera, ara m'estava plantejant si no seria millor fer-ho a l'inrevés: a partir d'unes «novetats» de Millennium (cercant «TDX»), agafar la resta d'informació (resum, director de la tesi i PDFs) del TDX. P. ex:

Això ho dic perquè des del Millennium tenim la identificació TDX (a partir de la URL), però no a l'inrevés. Aquest identificador Millennium també ens interessa tenir-lo al DDD. Així tindriem una catalogació de qualitat, ja en Marc21, i només hi afegiriem el parell o tres de coses que no estiguin a Millennium, en comptes de fer conversions més o menys aproximades des de Dublin Core i després «millorar» el registre sobreescrivint algunes etiquetes, que segur que és més difícil de fer i de resultat pitjor.

Les preguntes són:

  1. Cristina, et sembla una bona estratègia?
  2. Podem fer una extracció automàtica i periòdica (ex., mensual) dels registres de tesis de la UAB des de Millennium i ja en Marc21?

CA Actualitzat per Cristina Azorin fa aproximadament 16 anys Accions #8

  • Assignat a ha canviat de Cristina Azorin a Ferran Jorba

CA Actualitzat per Cristina Azorin fa aproximadament 16 anys Accions #9

Ferran,

l'Òskar em confirma que no hi ha cap problema per a fer exportacions periòdiques des del catàleg, amb data d'entrada per a cada mes i amb l'etiqueta 730 que digués TDX. Es genera un fitxer en format MARC i es podria deixar a 'Intercambio de datos' del Millennium. Em sona que ja ho havíem fet servir amb la Bea. T'aniria bé?

A mi em sembla molt bé exportar des de Millennium i després completar amb l'HTML. Si vols concretar més caldrà parlar amb l'Òskar. Com a prova ell farà una extracció de gener a març i veiem com va.

CA Actualitzat per Cristina Azorin fa aproximadament 16 anys Accions #10

El nom del fitxer serà TDX_DDD

FJ Actualitzat per Ferran Jorba fa aproximadament 16 anys Accions #11

Cristina, millor que de moment m'envieu tot el 2009 del TDX. Què vol dir 2009? No ho sé. Catalogat el 2009, o presentat al 2009... Hauria de casar amb el camp Date del OAI del TDX.

Tinc pensat descartar duplicats, de manera que no hauríem de tenir problemes, però millor «acabar» el 2009.

OH Actualitzat per Oskar Hernández fa aproximadament 16 anys Accions #12

Hola Ferran, tal i com em demanaves al teu correu t'adjunto dos fitxers amb l'extracció dels registres catalogats el 2009 que es van entrar al TDX. Un dels fitxers és el que Millennium genera per defecte (.out) i l'altre és aquest mateix fitxer transformat en format MARC (.mrc) amb el MarcEdit (http://people.oregonstate.edu/~reeset/marcedit/html/index.php).

La segona qüestió que comentaves al correu ("A la llarga, el que m'interessarà és que es faci sense intervenció manual, i per tant, estaria molt millor que el fitxer el pogués recollir un script via http o ftp, sense haver d'entrar a Millennium via interfície gràfica."), quan arribi el moment, millor que ho parlem amb en Javier Planella perquè jo no tinc els coneixements informàtics per gestionar una actuació d'aquest tipus.

Salut!

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #13

Ja he avançat amb el script que ho farà a partir de Millennium. Ja tinc fets aquests passos:

  1. A partir d'un fitxer Marc de Millennium, fer les transformacions pequè sigui vàlid pel DDD (ex., passar la 001 a 035 o afegir la 980)
  2. Agafar tots els identificadors TDX del TDX.
  3. Recollir, via GetRecord (http://www.openarchives.org/OAI/openarchivesprotocol.html#GetRecord) els registres en Dublin Core
  4. Normalitzar els diacrítics i el XML

Queda pendent la millora del registre de Millennium amb l'abstract i algun camp més (ex., directori de tesi) del TDX, recollir els documents i fer la càrrega.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #14

Pendent de confirmar les les 700 i 710 (tasca # .

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #15

Els abstracts no es poden agafar del OAI DC, perquè alguns caràcters mal picats (ex., un accent tancat en comptes d'un apòstrof) desapareixen en l'exportació OAI. En HTML, al menys hi són i es poden confirmar. Cerque, p. ex., el cas de «lobjectiu» a la tasca # que se m'ha tornat a donar ara un munt de cops.

En tot cas, el HTML original el guardo amb el nom tdx.html al mateix directori de cada tesi, o sigui que la informació ja me l'havia baixada (ex. http://ddd.uab.cat/pub/tesis/2003/tdx-1113103-145811/). També, evidentment, recuperaré el mètode per «arreglar» aquests caràcters igual que aquella primera càrrega.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #16

Acabo de fer la càrrega de les primeres 10 tesis del fitxer de 302:

http://ddd.uab.cat/collection/tesisuab

No les he carregades totes perquè en la instància de proves la indexació, que ara inclou el text complet, va durar unes quantes hores i no he volgut tenir el DDD bloquejat tanta estona.

Aquesta primera càrrega inclou:

  1. Adaptació del registre Marc21 de Millennium al DDD (bàsicament 001 -> 035 i creació de la 980).
  2. Baixar el registre Dublin Core via OAI del TDX.
  3. Baixar els fitxers PDF del TDX al DDD, creació de miniatures, etc.
  4. Incloure-hi també amb el nom tdx.html la pàgina HTML original del TDX, normalitzant la barreja de diacrítics originals per UTF-8. Aquesta és l'única manera d'agafar l'abstract correcte per afegir-lo al DDD.
  5. Afegir aquesta abstract com a 520.
  6. Afegir les 856 amb els PDFs locals.

De moment no hi he afegit les 7XX perquè no veig clar el resultat de la tasca #

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #17

Acabo de carregar-ne dos conjunts més: una de 10 registres i l'altre de 100. La càrrega l'he de fer en dos passos: primer la dels registres Millennium, i després la resta de la informació del TDX, perquè fins que no s'han indexat els registres nous no és possible cercar per l'identificador TDX. Un cop estan indexats i creats a la col·lecció pendent (http://ddd.uab.cat/collection/pendent) aleshores els hi afegeixo les 520 i 856.

He de mirar de quina manera ho puc automatitzar, i fer-ho de manera que funcioni amb la futura migració del TDX a DSpace.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #18

Ja estan totes les 302 tesis carregades. N'hi havia unes 100 que ja hi eren, i ja tenien la 530 i les 856, o sigui que no les hi he fet res. Les 200 noves són els registres de Millennium afegint-li els abstracts del TDX i les URLs locals.

Continuo sense afegir-hi les 7XX fins que no veiem bé la tasca #

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #19

Cristina o Òskar,

necessitaria una nova extracció de tesis TDX de Millennium, tal qual surt de Millennium en iso2709, sense passar-lo per cap Marcedit o similar. Afegiu-me'l a aquesta tasca amb el nom TDX_a2010m4.out. Es tractaria de la continuació del fitxer TDX2009.out; per tant, jo faria una cerca per totes les tesis catalogades a partir del 2010.

OH Actualitzat per Oskar Hernández fa quasi 16 anys Accions #20

Hola Ferran,

Acabo de penjar el fitxer. Tal i com indicaves, l'he penjat tal qual surt de Millennium. La base de la cerca és la que proposaves: tesis electròniques catalogades entre 01/01/2010 i fins el dia d'avui amb una 730 TDX.

Fins aviat!

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #21

Ja he fet la càrrega dels 59 registres.

Continuo sense afegir-hi les 7XX fins que no veiem bé la tasca #

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #22

Aquest tema el vam estar tractant amb el Javier Planella el mes de juliol. Donat que el circuit és agafar primer els registres de Millennium, per després completar la informació del TDX (sobretot abstract i director), l'automatització passa per recollir automàticament aquesta informació a partir de les novetats generades a partir de Millennium.

Amb el Javier vam quedar d'aquesta manera. He d'agafar els registres a partir d'aquestes adreces:

Aquestes adreces es van reutilitzant rotativament a mesura que passen els anys, és a dir, que només és accessible el darrer mes corresponent.

A partir d'aquests registres, recollor el registre complet a Millennium. P. ex., el registre de la pàgina HTML m'adreça a http://cataleg.uab.cat/record=b1810151~S1*cat .

Malhauradament, no sembla possible que Millennium em retorni un registre Marc21 a partir d'una adreça web com aquesta. Existeix un pseudo-marcxml que es fa posant-hi un x abans de record (http://cataleg.uab.cat/xrecord=b1810151~S1*cat) però no és un Marc21 estàndard.

D'altra banda, he vist que no tots els registres de Tesis apunten a la versió TDX, o sigui que he de vigilar de carregar només els que tenen la versió digital.

Així és com ens vam quedar abans de vacances.

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #23

Els registres exportat amb el format xrecord tenen, a més, l'inconvenient que els diacrítics no estan en UTF-8, sinó en aquesta convenció de Millennium (ex Guzm{u00E1}n per dir Guzmán, vegeu http://cataleg.uab.cat/xrecord=b1810151).

Per tant, m'estic tornant a mirar les exportacions via Web. Però per algun motiu, m'estic trovant que els registres iso2709 són erronis. Yaz-marcdump (versions 3.0.34 i 4.0.12) em donen molts errors, a més d'un registre en més d'un fitxer i en més d'una exportació:

<record>
  <leader>01474nam a2200373 a 4500</leader>
<!-- Directory offset 372: Bad value for data length and/or length starting -->
  <controlfield tag="001">0</controlfield>
<!-- Separator but not at end of field length=11 -->
  <controlfield tag="001">1</controlfield>
<!-- Separator but not at end of field length=12 -->
  <controlfield tag="007"> </controlfield>
<!-- Separator but not at end of field length=15 -->
  <controlfield tag="008">|</controlfield>
<!-- Separator but not at end of field length=41 -->
  <controlfield tag="009">c</controlfield>
<!-- Separator but not at end of field length=15 -->
  <datafield tag="020" ind1="1" ind2="">
    <subfield code=" "></subfield>
    <subfield code="a">97884690403</subfield>
  </datafield>
<!-- No separator at end of field length=18 -->
  <datafield tag="035" ind1="0" ind2="">
    <subfield code=" "></subfield>
    <subfield code="a">9788469040300</subfield>
    <subfield code="9">ES-BaUAB0</subfield>
  </datafield>
<!-- No separator at end of field length=31 -->
  <datafield tag="035" ind1="1" ind2="">
    <subfield code=" "></subfield>
    <subfield code="a">0783-69560</subfield>
    <subfield code="9">ES-BaUAB0</subfield>
  </datafield>
<!-- No separator at end of field length=28 -->
  <datafield tag="080" ind1="5" ind2="">
    <subfield code=" "></subfield>
    <subfield code="a">57(0.03</subfield>
  </datafield>
<!-- No separator at end of field length=14 -->
  <datafield tag="100" ind1=")" ind2="">
    <subfield code=" "></subfield>
    <subfield code="a">Bech i Serra, Joan Jose</subfield>
  </datafield>
<!-- No separator at end of field length=30 -->
<!-- Directory offset 144: Data out of bounds 81876 >= 1474 -->
</record>

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #24

Li demanaré al Javier per si es pot programar una tasca que generi els registres Marc d'intercanvi en iso2709.

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #25

  • Assignat a ha canviat de Ferran Jorba a Javier Planella

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #26

  • Estat ha canviat de Creada a Tancada

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #27

Ja està. El Javier m'ha muntat la pàgina http://websb.uab.cat/novetats_tdx/ amb les extraccions mensuals dels registres TDX del catàleg.

Per part del DDD, la càrrega es fa en dues fases, com el Recercat. En una primera fase es carreguen els registres bibliogràfics; en el cas de les tesis, de Millennium a partir dels registres que em genera el Javier, i els col·loco a la col·lecció Pendent. En la segona fase s'enriqueixen amb les dades Dublin Core del TDX, es baixen els PDFs, es generen les miniatures i es publiquen a la col·lecció Tesis.

En el cas del DDD, les càrregues es fan en cap de setmana.

CA Actualitzat per Cristina Azorin fa més de 13 anys Accions #28

  • Estat ha canviat de Tancada a En curs

CA Actualitzat per Cristina Azorin fa més de 13 anys Accions #29

  • Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD. OCTUBRE09 a Automatitzar la incorporació de les tesis del TDX al DDD

CA Actualitzat per Cristina Azorin fa més de 13 anys Accions #30

Comencem a fer una càrrega manual de les tesis a partir de les extraccions mensuals de Millennium. Farem la primera prova amb maig 2011.

En les properes càrregues automàtiques cal pensar a passar l'etiqueta 540 de drets.

Hem fet la consulta sobre el mapeig que fa servir el CCUC per a passar les tesis de TDX al catàleg, quan tinguem una resposta l'afegirem a aquesta tasca.

CA Actualitzat per Cristina Azorin fa més de 13 anys Accions #31

  • Prioritat ha canviat de Alta a Baixa

CA Actualitzat per Cristina Azorin fa més de 13 anys Accions #32

  • Assignat a ha canviat de Javier Planella a Ferran Jorba

NC Actualitzat per Núria Casaldaliga fa més de 12 anys Accions #33

  • Paraula clau s'ha establert a JR

NC Actualitzat per Núria Casaldaliga fa més de 12 anys Accions #34

  • Data de venciment s'ha establert a 31-12-2013

CA Actualitzat per Cristina Azorin fa aproximadament 12 anys Accions #35

  • Prioritat ha canviat de Baixa a Normal

CA Actualitzat per Cristina Azorin fa aproximadament 12 anys Accions #36

  • Data de venciment ha canviat de 31-12-2013 a 27-06-2014

NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys Accions #37

  • Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD a Automatitzar la incorporació de les tesis del TDX al DDD - PRJ 152

NC Actualitzat per Núria Casaldaliga fa aproximadament 12 anys Accions #38

  • Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD - PRJ 152 a Automatitzar la incorporació de les tesis del TDX al DDD - PRJ152

CA Actualitzat per Cristina Azorin fa aproximadament 12 anys Accions #39

  • Paraula clau ha canviat de JR a JR catera

CA Actualitzat per Cristina Azorin fa aproximadament 12 anys Accions #40

  • Paraula clau ha canviat de JR catera a JR cartera

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #41

  • Data de venciment ha canviat de 27-06-2014 a 19-12-2014
  • Prioritat ha canviat de Normal a Alta

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #42

Ahir vam tenir la primera reunió amb el Javier per coordinar les tasques d'identificació i càrrega de les tesis del TDX.

Hem quedat, que el fluxe serà com estem fent amb altres repositoris amb OAI: deixar que Invenio recol·lecti els registres via OAI i en faci una primera càrrega, possiblement en Dublin Core i en una col·lecció amagada, per després enriquir els registres amb dades de Millennium, que el Javier extraurà mensualment.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #43

  • Tema ha canviat de Automatitzar la incorporació de les tesis del TDX al DDD - PRJ152 a Automatitzar la incorporació de les tesis del TDX al DDD
  • Estat ha canviat de En curs a Tancada
  • Paraula clau s'ha suprimit (JR cartera)

Tanco aquesta tasca, que es refereix a l'antic sistema pre-DSpace. Per tractar el cas del TDX en DSpace ja hi ha la #1162, que és la que quedarà oberta.

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #44

  • S'ha afegit relacionat amb Tasca #6444: Reorganitzar la càrrega de tesis de TDX
Accions

També disponible a: PDF Atom