Projecte

General

Perfil

Accions

Tasca #6444

tancat
CA FJ

Reorganitzar la càrrega de tesis de TDX

Tasca #6444: Reorganitzar la càrrega de tesis de TDX

Afegit per Cristina Azorin fa quasi 5 anys. Actualitzat fa aproximadament 4 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Gestió de la col·lecció
Temàtica prevista:
Inici:
03-05-2021
Data de venciment:
30-07-2021
Paraula clau:

Descripció

Les tesis ja no estaran al catàleg perquè de fet els usuaris ja no cercaran al catàleg només, sinó també al DDD amb el metacercador (que serà Primo), per això és redundant que estigui tantes vegades.

Segons les recol·leccions via OAI que fem del TDX, ara mateix queden pendents d'incorporar al DDD 689 tesis (2 del 2019, 276 del 2020 i 411 del 2021).

Les xifres les he tret d'aquests tres llistats, on manualment poden cercar www.tdx.cat i veure si té registre al DDD. Òbviament, jo hi he passat un programa perquè ho compti per mi, però la inspecció la podeu fer vosaltres mateixes:


Ara mateix hi ha unes 100 tesis que ja estan carregades al CCUC i estan en procés de catalogació a la UAB, aquestes encara seguiran el procés habitual. Es carregaran tenint en compte les dades al CCUC i al TDX.

La darrera tesi que entrarà pel sistema habitual és aquesta: http://hdl.handle.net/10803/670323 Si el registre té data d'entrada, suposo que podràs fer la càrrega a partir d'aquesta dada.
Amb excepció d'aquestes tres, que son posteriors però també entraran via catàleg perquè corria pressa en fer-les:

Cal pensar com hauríem de fer el procediment per a la revisió al DDD i n'informem a les biblioteques.


Tasques relacionades 7 (0 obertes7 tancades)

relacionat amb DDD - Tasca #3884: tesis al DDDTancadaFerran Jorba18-02-2016Accions
relacionat amb DDD - Tasca #3010: Detectar i carregar les tesis que estan al TDX i no al DDDTancadaFerran Jorba17-07-2014Accions
relacionat amb DDD - Millora #592: Nova càrrega de registres del TDXTancadaCristina AzorinAccions
relacionat amb DDD - Millora #470: Automatitzar la incorporació de les tesis del TDX al DDDTancadaFerran Jorba19-12-2014Accions
relacionat amb DDD - Tasca #252: Incorporar les tesis de la UAB al DDDTancadaOriol CastellsAccions
relacionat amb DDD - Tasca #7103: Comprovar que la càrrega del TDX de tesis amb títols amb dues llengues s'estigui fent correctamentTancadaFerran Jorba23-11-202001-03-2023Accions
relacionat amb DDD - Tasca #7107: Eliminar l'adreça amb http dels registres que la tinguin duplicada com a httpsTancadaFerran Jorba23-11-202001-03-2023Accions

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #1

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #2

  • S'ha afegit relacionat amb Tasca #3010: Detectar i carregar les tesis que estan al TDX i no al DDD

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #3

  • S'ha afegit relacionat amb Millora #592: Nova càrrega de registres del TDX

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #4

  • S'ha afegit relacionat amb Millora #470: Automatitzar la incorporació de les tesis del TDX al DDD

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #5

  • S'ha afegit relacionat amb Tasca #252: Incorporar les tesis de la UAB al DDD

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #6

Si us sembla, jo començaria cronològicament pels més antics, els del 2019:

Aquests dos ens serviran una mica de prova de veure com va, a partir de la conversió Marc21 en base al TDX.

Si cal fer correccions, les farem, i a mesura que avancem, proposo fer càrregues també inversament cronològiques, per mesos, del 2020 i després del 2021, però de moment mirant-nos bé el resultat i corregint el que calgui.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #7

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #8

Ens sembla perfecte!

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #9

Les dues del 2019 ja hi són:

Tinc un parell de dubtes:

  1. Les tesis fins ara no passaven pel circuit de revisió, sinó que es publicaven directament. És el que he fet amb aquestes dues; continuem així?
  2. Com que venen d'un DSpace, he agafat la col·lecció original, com fèiem amb Recercat, i l'he posat a la 762. No sé si en el cas del TDX ho he de continuar fent.

I, evidentment, si hi ha comentaris, correccions, endavant. Podeu, com sempre, veure els formats orginals via idregistres:

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #10

  • Estat ha canviat de Creada a En curs

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #11

  • Paraula clau s'ha establert a NCR

Moltes gràcies Ferran, que valori la Teresa millor si poden passar directament a estar publicades. Jo crec que sí si fas alguns retocs en el mapeig de les metadades.

  1. tots els autors que estiguin com a 700 jo els afegiria un $e dir. per defecte. Generalment (per no dir sempre) les tesis tenen un sol autor/a.
    No està posat al TDX i ho treiem de catàleg.
  2. Manca l'etiqueta 251, que fins ara teníem en la 655 i que indica la versió.
    Al TDX és <dc:type>info:eu-repo/semantics/publishedVersion</dc:type> i caldria entrar-la com a:
    251 __ $1 http://purl.org/coar/version/c_71e4c1898caa6e32 $2 openaire4 $9 SMUR $a Versió publicada
  3. pel que veig al registre del TDX, el dc description està en diferents idiomes i només surt un 520 3_ $a al registre del DDD.
  4. IMPORTANT, manca la llicència, etiqueta 540, que ja l'agafavem sempre del TDX perquè al catàleg no surt.
  5. Manquen les etiquetes de la tipologia, que si vols ja les pots afegir en la nova codificació:
    655 _7 $1 http://purl.org/coar/resource_type/c_db06 $2 openaire4 $a Tesi doctoral $c literature
    655 _7 $2 europeanaedm $a TEXT
  6. sobre la 762 no se molt bé que dir-te però no farà mal, de moment deixa-la, tot i que amb una hi hauria prou,
    jo no posaria la genèrica de la UAB. Per exemple, d'aquestes dues que té el primer registre d'exemple jo eliminaria la primera.
    762 18 $t Universitat Autònoma de Barcelona $w com_10803_120
    762 18 $t Departament de Ciència Política i de Dret Públic $w col_10803_152
    Ara no té molt sentit perquè el departament també està en una etiqueta 710 però al 2021 han canviar el sistema d'entrada
    de les tesis, ja no es classifiquen per departament sino per programa de doctorat i llavors potser sí que ens va molt bé
    tenir-lo en un etiqueta 762.
  7. Es genera una etiqueta 830 amb el títol que no hauria de sortir.
    En el primer exemple: 830 __ $a Interpretation and knowledge modeling of patents

Finalment cal tenir em compte les tesis embargades que durant una època ens va costar molt que sortís la miniatura correctament en el DDD. Cal comprovar que quedin bé.

He hagut de posar un 'pre' perquè sinó els guions baixos passaven a cursiva i desapareixien. (Jo l'he tret perquè em costava molt de llegir-ho desplaçant a la dreta i l'esquerra; he trobat la solució marcant amb arrova el tros que té els __ guions baixos. És la C del botó de l'editor. Ferran)

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #12

Em sembla que ja he corregit les peticions:

Després he vist que em mancava fer la 546 ja d'entrada, sense haver d'esperar la correcció a posteriori. Ara ja ho he corregit.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #13

Crec que val la pena no entretenir-nos-hi més. Si no hi teniu inconvenient, n'aniré carregant 10 cada dia, de més antiga a més nova, i si cal fer correccions a la conversió, ja les faré. I si cal aturar-ho, també ho faré. Aquestes són les d'avui:

Aniran apareixent doncs cada dia a https://ddd.uab.cat/collection/tesis

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #14

Ferran Jorba va escriure:

Crec que val la pena no entretenir-nos-hi més. Si no hi teniu inconvenient, n'aniré carregant 10 cada dia, de més antiga a més nova, i si cal fer correccions a la conversió, ja les faré. I si cal aturar-ho, també ho faré. Aquestes són les d'avui:

Aniran apareixent doncs cada dia a https://ddd.uab.cat/collection/tesis

Ferran, jo les veig molt bé, trobo a faltar les 655.

655 _7 $1 http://purl.org/coar/resource_type/c_db06 $2 openaire4 $a Tesi doctoral $c literature
655 _7 $2 europeanaedm $a TEXT

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #15

És veritat, no hi eren. Ja està corregit, gràcies.

Demà 10 més.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #16

Si seguim amb el ritme de 10 cada dia, de dilluns a dissabte, són 60 a la setmana. Com que n'hi ha 670 de pendents, en 11 setmanes, a mitjans de juliol, ens haurem posat al dia.

Però si veiem que no hi ha incidents, ho podem accel·lerar a 20 al dia, per exemple, o més. De moment jo seria prudent durant un parell de setmanes, a veure si tot va bé.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #17

Avui ha tornat a fallar la descàrrega dels pdf. Automàticament, ho ha fet entre les 4:10 i 4:12, i el resultat és que baixava una pàgina html que deia que el TDX tenia un problema i que s'ho estaven mirant. Quan ho he intentat solucionar, cap a les 7, em trobava tant el mateix comporatment, com que em baixava un fitxer buit (0 bytes) o, després d'un, dos, o tres intents (no més), el pdf.

Miraré de fer el sistema automàtic més tolerant a aquests errors, i alhora que comprovi que el fitxer que baixi sigui efectivament un pdf.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #18

Ara que torna a funcionar, incremento a 20 les tesis diàries, perquè com que en continuen entrant de noves al TDX, la cua no baixa significativament. Avui n'hi ha 652, per exemple.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #19

Ara ja ho tenim a 550, però crec que millor accel·lerar-ho perquè si no trigarem encara un parell de mesos, entre les que importem i les noves. Per tant, ho pujo a 30 tesis diàries.

Miraré de fer el sistema automàtic més tolerant a aquests errors, i alhora que comprovi que el fitxer que baixi sigui efectivament un pdf.

Perquè sí, això ja està en marxa i he comprovat que, funciona; el TDX de tant en tant dóna timeouts o pàgines d'error, i ara mateix el programa ho reintenta fins a 10 vegades, esperant-se cada cop una mica més, i comprovant que si el fitxer acaba en .pdf, efectivament sigui un pdf.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #20

Avui en queden 351.

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #21

Avui ja només en manquen 91.

https://ddd.uab.cat/collection/tesis

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #22

  • Estat ha canviat de En curs a Tancada

Avui ja només en queda una i, per tant, he canviat el valor de la columna del TDX a la taula ServidorsOAIqueRecolectem per un +, que vol dir que es recol·lectarà com totes les altres, i amb text complet.

Tanquem la tasca, doncs.

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #23

  • Estat ha canviat de Tancada a En curs

Sembla que la informació sobre l'accés s'està traspassant del TDX en un subcamp $a de l'etiqueta 540 quan hauria de ser $u. Això fa que no es vegi el text de la llicència en eñs registres, per exemple:
https://ddd.uab.cat/record/241430

La Cristina farà una revisió i intentarà canviar els que pugui amb canvis globals

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #24

Cristina Azorin va escriure:

Sembla que la informació sobre l'accés s'està traspassant del TDX en un subcamp $a de l'etiqueta 540 quan hauria de ser $u. Això fa que no es vegi el text de la llicència en eñs registres, per exemple:
https://ddd.uab.cat/record/241430

Ja he trobat el motiu: passa quan hi ha embargament, perquè l'etiqueta dc_rights està repetida. Aquesta informació abans jo l'havia tret d'altres formats, com el mets, però no recordo en quins casos no funcionava bé, i al final em vaig passar al oai_dc, però no m'hi vaig fixar en aquest cas dels embargats.

La Cristina farà una revisió i intentarà canviar els que pugui amb canvis globals

És a dir, que només hauries de canviar els que tenen embargament (em sembla!)

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #25

Al llistat https://ddd.uab.cat/qualitat/980-revisar-nobib.html surten unes tesis i no se què fer amb elles...

FJ Actualitzat per Ferran Jorba fa més de 4 anys Accions #26

Cristina Azorin va escriure:

Al llistat https://ddd.uab.cat/qualitat/980-revisar-nobib.html surten unes tesis i no se què fer amb elles...

Vam veure que eren de les primeres, encara de proves, que anaven a revisar. Vam quedar que les reporcessaria perquè anessin directament a la col·lecció de tesis, i així va ser.

Ara en queda una, https://ddd.uab.cat/record/243657, que ha desaparescut (esborrat) del tdx: https://www.tdx.cat/handle/10803/669247. Miraré de veure el seu estatus oai d'esborrat al tdx i me'n faig càrrec d'actualitzar-lo a la base de dades local d'idregistres, perquè no torni a sortir.

FJ Actualitzat per Ferran Jorba fa més de 4 anys Accions #27

  • Estat ha canviat de En curs a Tancada

Ferran Jorba va escriure:

Ara en queda una, https://ddd.uab.cat/record/243657, que ha desaparescut (esborrat) del tdx: https://www.tdx.cat/handle/10803/669247. Miraré de veure el seu estatus oai d'esborrat al tdx i me'n faig càrrec d'actualitzar-lo a la base de dades local d'idregistres, perquè no torni a sortir.

Fet: https://ddd.uab.cat/idregistres.py/search?q=oai:www.tdx.cat:10803/669247

CA Actualitzat per Cristina Azorin fa més de 4 anys Accions #28

  • Estat ha canviat de Tancada a En curs

Avui, en la tasca mensual de desembargament de tesis, hem trobat un exemple d'una tesi que està a TDX de fa temps i no s'ha carregat al DDD: https://www.tdx.cat/handle/10803/669598

FJ Actualitzat per Ferran Jorba fa més de 4 anys Accions #29

Cristina Azorin va escriure:

Avui, en la tasca mensual de desembargament de tesis, hem trobat un exemple d'una tesi que està a TDX de fa temps i no s'ha carregat al DDD: https://www.tdx.cat/handle/10803/669598

Interessant. Dedueixo que l'identificador OAI d'aquesta tesi ha de ser oai:www.tdx.cat:10803/669598. Cerquem-lo a idregistres:

https://ddd.uab.cat/idregistres.py/search?q=oai:www.tdx.cat:10803/669598

Diu que sí que el tenim al DDD, però restringit:

https://ddd.uab.cat/record/213622

De fet, la 980 diu que forma part de la col·lecció obsolet:

https://ddd.uab.cat/record/213622/export/hm

Segons l'històric, hi és des de la versió 18 del registre, el 14-09-2021, i l'hi va posar la... Cristina Azorín!

CA Actualitzat per Cristina Azorin fa més de 4 anys Accions #30

  • Estat ha canviat de En curs a Tancada

Ok, ara busco aquest correu de Eva Humet que diu al registre i li pregunto si es pot fer pública, moltes gràcies Ferran (ni en Sherlock Holmes et superaria... ;-))

FJ Actualitzat per Ferran Jorba fa més de 4 anys Accions #31

Cristina Azorin va escriure:

Ok, ara busco aquest correu de Eva Humet que diu al registre i li pregunto si es pot fer pública, moltes gràcies Ferran (ni en Sherlock Holmes et superaria... ;-))

Gràcies. Estic pensant que potser hi ha un embolic amb les dues adreces del TDX que consten al registre: https://ddd.uab.cat/record/213622. Igual hi ha un identificador OAI diferent que la url, o a la inversa...

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #32

  • Paraula clau s'ha suprimit (NCR)

CA Actualitzat per Cristina Azorin fa quasi 4 anys Accions #33

  • S'ha afegit relacionat amb Tasca #7103: Comprovar que la càrrega del TDX de tesis amb títols amb dues llengues s'estigui fent correctament

CA Actualitzat per Cristina Azorin fa quasi 4 anys Accions #34

  • S'ha afegit relacionat amb Tasca #7107: Eliminar l'adreça amb http dels registres que la tinguin duplicada com a https
Accions

També disponible a: PDF Atom