Tasca #3010
tancatTasca #3268: Objectius i tasques per fer a casa en teletreball (Ferran)
Detectar i carregar les tesis que estan al TDX i no al DDD
Descripció
Al TDX hi ha més tesis de la UAB que al DDD. Cal trobar-les i carregar-les.
Tasques relacionades 6 (0 obertes — 6 tancades)
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Totes les tesis TDX al DDD ja tenen la 035 amb l'identificador OAI del TDX (ex: http://ddd.uab.cat/record/118946/export/hm). Això facilitarà la comparació.
Paral·lelament, ja he canviat 301 de les 1038 tesis que a la url d'adreça alternativa hi tenen la web tdx.cat en comptes de handle.net. Per demà ja estaran totes canviades.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Ja he escrit el programa que detecta els que estan al TDX i no al DDD, a partir de l'identificador OAI de la 035, i ho fa en menys d'un minut, de manera que el podem executar sempre que ens calgui. Ara mateix en troba 670.
Miraré de combinar aquesta tasca amb la #1162 per carregar aquests registres com si vinguessin d'oai.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Estat ha canviat de Creada a En curs
Ja hi ha les 10 primeres carregades!
http://ddd.uab.cat/collection/tesis
Ara mateix el sistema detecta que en manquen 777. Deixaré que en carregui 100 cada dia, i per tant en poc més d'una setmana ja hi seran totes.
Caldrà que repassem quines metadades cal corregir, i en concret quines cal recollir del catàleg perque són millors. Però això forma part de la tasca #470.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Ja he vist el primer conflicte, i només amb les 10 primeres tesis carregades. N'hi ha una d'aparentment duplicada:
El sistema no l'ha detectada perquè l'identicador remot (oai a la 035) és diferent. De fet, és que està duplicada al TDX:
CA Actualitzat per Cristina Azorin fa més de 11 anys
Esperem que aquest sigui un error puntual. Jo he vist alguna amb ISBN com a 'pendent', potser després ho haurem de recuperar i anar-les completant.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Aquesta nit se n'han afegit 100 més, moltes amb embargament, i això no queda resolt. Cal afegir la nota i la icona del calendari, com les altres d'embargades.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Ja he corregit els antics, els de la càrrega d'ahir, i em sembla que també he corregit el comportament de les noves càrregues. Però amb la prova de les noves 5 tesis que acabo de carregar, entre elles no n'hi havia cap d'embargada, però sí que ja es veu que hi apareixen els $s i el $p a la 856, que fins ara no es generaven en el moment de la càrrega inicial.
http://ddd.uab.cat/collection/tesis
D'altra banda, cada cop més em sembla que aquest sistema, és a dir, comparar quines tesis hi ha a can TDX que no tenim al DDD i carregar-los automàticament, serà la manera de solucionar les tasques #470 i #1162 (a la llista de les tasques relacionades).
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Durant un parell de dies he deixat automatitzades càrregues de 100 tesis a les 10 de la nit, amb els procediments automàtics de correccions diaris. He vist que no va gens bé, perquè triga tant en indexar tesis noves (perquè són documents amb moltes paraules) que fa anar malament tota la resta de scripts.
Per tant, les tres darreres tongades les tinc programades pel matí, a les 6. Avui, 100 (ja carregades), demà 100 més, i divendres les 47 darreres (de moment).
Amb això tancarem aquesta tasca i continuarem amb la #470 i #1162, on explicaré que probablement ho programaré per la matinada dels dilluns.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Ja estan totes carregades! Caldrà repassar alguns casos, que anoto aquí com a exemples:
- Resums truncats o més curts en la primera llengua, probablement per tal com s'exporta en CCUC MARC (ex, amb algun salt de línia o alguna marca que no vaig saber veure), ex: http://ddd.uab.cat/record/127781, http://ddd.uab.cat/record/127769, http://ddd.uab.cat/record/127745, etc. Passa poc, però cal revisar-ho (tasca #3247).
- PDFs duplicats, ex: http://volum-i.uab.cat/search?q=dd7f69b0e84dc6fb1e52be52d16fabd7, http://volum-i.uab.cat/search?q=28fc7fb290ae2ca3d7225fff0ff612a6, etc.). Ara mateix tinc detectsts 139 fitxers, corresponent a 123 tesis (tasca #3249).
- Millores catalogràfiques a partir de les extraccions de Millennium.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Estat ha canviat de En curs a Tancada
FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys
- Tasca pare s'ha establert a #3268
CA Actualitzat per Cristina Azorin fa quasi 5 anys
- S'ha afegit relacionat amb Tasca #6444: Reorganitzar la càrrega de tesis de TDX