Tasca #7372
tancatComprovar si hi ha registres per recol·lectar, començant pel TDX
Afegit per Ferran Jorba fa més de 3 anys. Actualitzat fa aproximadament 3 anys.
Descripció
A resultes de la petició d'una tesi del 2021 que no havia entrat i que he forçat a recol·lectar-la a mà (https://ddd.uab.cat/record/265231), hem cregut necessari mirar si hi ha altres casos similars.
Convé doncs crear un procediment, preferiblement automàtic, que comprovi si tenim tots els registres que hauríem de tenir, i si és possible, saber per què no els tenim al DDD, si amb el DDD els hauríem de tenir tots sistemàticament.
Tasques relacionades 3 (0 obertes — 3 tancades)
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #1
- S'ha afegit relacionat amb Tasca #7103: Comprovar que la càrrega del TDX de tesis amb títols amb dues llengues s'estigui fent correctament
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #2
- S'ha afegit relacionat amb Tasca #7237: Revisar la importanció del registres TDX - Aparició dels programes de doctorat
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #3
- Estat ha canviat de Creada a En curs
De moment, pel què fa al TDX, en falten uns 360, tot i que les xifres no sé si són exactes.
- Segons la versió web (https://www.tdx.cat/handle/10803/120/recent-submissions), la col·lecció de la UAB de tesis sembla tenir 10.664 tesis ("Ara es mostren els elements 1-5 de 10664").
- Segons he recopil·lat via OAI, me'n surten 10.676
- Via la url d'OAI https://www.tdx.cat/oai/request?verb=ListIdentifiers&set=col_10803_120&metadataPrefix=oai_dc pendent de repassar
- Al DDD, 10.336 a la col·lecció tesisuab (https://ddd.uab.cat/collection/tesisuab)
- Al DDD, 10.350 a la de tesis (https://ddd.uab.cat/collection/tesis); hauríem de saber si aquesta diferència és correcta.
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #4
Ara ja he embastat bé una opció del client oai, que mira, per a un oaiset de servidor oai, quins identificadors remots no tenim recol·lectats. Pel TDX ara me n'ensurten 375. He de mirar com és que no els tenim (per exemple, si és perquè estan esborrats, etc).
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #5
D'esborrats en surten 6, i ja els tenim tots com a tal (esborrats) a idregistres (ex https://ddd.uab.cat/idregistres.py/search?q=oai:www.tdx.cat:10803/96824)
De no esborrats que no tenim el programa n'ha trobat 369. Són molts, massa. Encara no sé com és que no s'han incorporat si cada setmana es fa una recol·lecció sistemàtica. Miraré d'importar-ne algun, a veure com es comporta, i també miraré altres repositoris, a veure si és específic del TDX o es repeteix.
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #6
Uf. El primer dels que "hauríem de tenir" (oai:www.tdx.cat:10803/669247), dona error si el demanem via oai (GetRecord) com a la versió web:
- http://www.tdx.cat/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:www.tdx.cat:10803/669247
- https://www.tdx.cat/handle/10803/669247
Per títol ja el tenim, fins i tot amb l'error del títol (digitial) però amb identificador oai:www.tdx.cat:10803/669394:
- https://ddd.uab.cat/record/234224 Literacitat crítica digitial en els estudis socials
Aquest identificador existeix a can TDX, tant via OAI com web (ara sí, però juraria que abans m'havia donat error!):
- http://www.tdx.cat/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:www.tdx.cat:10803/669394
- https://www.tdx.cat/handle/10803/669394
De moment sospito del funcionament del servidor OAI del TDX, que consisteix en donar una llista errònia d'identificadors (via ListIdentifiers), que a la que es demana el registre sencer (via GetRecord), falla. Però necessito fer més proves.
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #7
Continuo investigant. El següents sembla del tot normals:
- https://ddd.uab.cat/idregistres.py/search?q=oai:www.tdx.cat:10803/674057
- https://www.tdx.cat/handle/10803/674057 Las enzimas cervicovaginales como parámetros preovulatorios
- https://www.tdx.cat/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:www.tdx.cat:10803/674057
- https://ddd.uab.cat/idregistres.py/search?q=oai:www.tdx.cat:10803/674059
- https://www.tdx.cat/handle/10803/674059 El legado pedagógico de Juan Macho Moreno...
- https://www.tdx.cat/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:www.tdx.cat:10803/674059
- https://ddd.uab.cat/idregistres.py/search?q=oai:www.tdx.cat:10803/674060
- https://www.tdx.cat/handle/10803/674060 How cognitive information drives movement in living organisms
- https://www.tdx.cat/oai/request?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:www.tdx.cat:10803/674060
De moment encara no entenc per què no els tenim...
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #8
De moment recol·lecto aquests 401 registres del tdx. Els carregaré mica en mica. Potser amb aquest exercici hi veig algun patró per entendre com és que no els tinguéssim.
CA Actualitzat per Cristina Azorin fa més de 3 anys Accions #9
- S'ha afegit relacionat amb Tasca #7565: Revisar la importanció del registres TDX - en alguns casos manca l'etiqueta de drets
FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #10
FJ Actualitzat per Ferran Jorba fa aproximadament 3 anys Accions #11
- Estat ha canviat de En curs a Tancada
Ja ens vam posar al dia de tot el que teníem endarrerit!