Tasca #5594
tancatArreglar la duplicació de l'etiqueta 856 en les càrregues de TDX
Descripció
sembla que a partir del 27 de gener de 2020 TDX ha fet algun canvi que ens afecta i ens duplica els enllaços en les etiquetes 856 de les tesis.
La primera tesi que detectem amb aquest problema és la https://ddd.uab.cat/record/217131
Fitxers
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
- Assignat a ha canviat de Ferran Jorba a Javier Planella
JP Actualitzat per Javier Planella fa aproximadament 6 anys
- S'ha afegit Fitxer 856_duplicat.txt 856_duplicat.txt
- Paraula clau ha canviat de NCR a NCR - TLT
Programado:
ddd@mompou:~/bin$/fix856duplicats.py
hay un total de 123 registros que tienen duplicada la etiqueta 856.
No todos son Tesis, por ejemplo: https://ddd.uab.cat/record/53737
Adjunto fichero 856_duplicat.txt con todos los registros
CA Actualitzat per Cristina Azorin fa aproximadament 6 anys
Hem repassat el fitxer que va adjuntar el Javier, en la majoria de casos es tractava d'eliminar una de les etiquetes duplicades, en d'altres casos no hem trobat la duplicitat exacta...
https://ddd.uab.cat/record/53737
https://ddd.uab.cat/record/102347
https://ddd.uab.cat/record/170773
https://ddd.uab.cat/record/187607
https://ddd.uab.cat/record/195091
https://ddd.uab.cat/record/215806
Entenc que si les càrregues del TDX són correctes es pot tancar la tasca.
JP Actualitzat per Javier Planella fa aproximadament 6 anys
Programado ddd@mompou:~/bin/fix856duplicats.sh
corregira automaticamente 3 registros cada hora
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
- Estat ha canviat de Creada a En curs
Acabo de comprovar que els duplicats no els posa res específic del TDX, sinó el programa germà del https://ddd.uab.cat/idregistres.py (és a dir, ~/bin/oaiharvest.py --add-external-identifiers-to-local-records). Ara miraré com és que no s'hi fixa que les urls externes ja hi són.
P. ex. avui mateix, https://ddd.uab.cat/record/174519 té repetides 4 vegades l'adreça de Racó.
Mentrestant, aquest programa del Javier els anirà eliminant.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
M'ha costat, però ja he trobat al menys una part de la causa: amb el canvi de tria del format de recollida amb ojs 3 (#5537), m'havia oblidat de convertir totes les adreces http a https, cosa que l'antic conversor sí que feia.
Aleshores, la situació és una mica confosa, perquè visualment no es veu la discrepància entre http i https, donat que Invenio, quan s'executa sota https, canvia totes les http per https. Però a la base de dades sí que són diferents.
En tot cas, ja he canviat els http per https a la base de dades interna, i així no se'n crearan més de nous. També he actualitzat el conversor perquè faci el canvi a https per les noves urls. Finalment, compto que el programa del Javier corregirà els que (encara) estan malament al DDD.
Pel que fa als casos del TDX, encara no me'ls he pogut mirar. Ho faré tot seguit.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
He trobat una segona causa: que la base de dades d'identificadors bibliogràfics dels registres locals, la que serveix per trobar els duplicats i per afegir els indicadors externs, no s'actualitzava bé per un canvi que vaig fer a l'hora de recuperar la data de darrera modificació.
Aquestes dues coses ja les he corregit. Els registres amb les 856 duplicades, i les que són les mateixes però varia el http pel https s'aniran corregint automàticament.
JP Actualitzat per Javier Planella fa aproximadament 6 anys
- Assignat a ha canviat de Javier Planella a Ferran Jorba
FJ Actualitzat per Ferran Jorba fa més de 5 anys
- Estat ha canviat de En curs a Tancada
Efectivament, tots els que he comprovat s'han corregit automàticament. Els únics que encara quedaven eren, curiosament, els tres casos de la #6077.
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Paraula clau s'ha suprimit (
NCR - TLT)