Tasca #6475
tancatLligar els registres de tesis d'EGRETA i el DDD
Descripció
- studenttheses:all PURE theses
- studenttheses:withFiles PURE theses (with associated files)
Caldria comprovar que es trobin lligades, amb la URL del DDD el màxim de tesis d'EGRETA, possiblement a través de l'opció idregistres.py. A més, cal veure si a través de les tesis amb fitxers es poden recuperar tesis antigues, presentades a altres universitats... que no tinguem al DDD.
Tasques relacionades 3 (0 obertes — 3 tancades)
CA Actualitzat per Cristina Azorin fa quasi 5 anys
- S'ha afegit copiada des de Tasca #6474: Assignar la biblioteca per a fer la revisió dels registres d'EGRETA
CA Actualitzat per Cristina Azorin fa quasi 5 anys
- S'ha afegit relacionat amb Tasca #6203: Interconnexions i intercanvis entre Egreta i el DDD - Objectiu SdB 2021
CA Actualitzat per Cristina Azorin fa més de 4 anys
- Data de venciment ha canviat de 23-07-2021 a 17-12-2021
Afegeixo l'adreça del listrecords per veure que surten tots els títols.
Penso que comparant títol i any (en el DDD que estigués a la col·lecció https://ddd.uab.cat/collection/tesis) no hi hauria d'haver molts equívocs.
CA Actualitzat per Cristina Azorin fa més de 4 anys
- Estat ha canviat de Creada a En curs
- Assignat a ha canviat de Ferran Jorba a Eulàlia Serre
Hi ha 80 tesis lligades al DDD però potser algunes no ho estan correctament, cal repassar-les: https://ddd.uab.cat/search?cc=tesis&sc=1&p=egreta
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys
- Data de venciment ha canviat de 17-12-2021 a 17-12-2022
ES Actualitzat per Eulàlia Serre fa aproximadament 4 anys
Xuleta per fer aquesta tasca:
Anar al llistat:
https://ddd.uab.cat/search?cc=tesis&sc=1&p=egreta
Entrar a un registre i copiar el contingut de la 035 amb el oai, exemple:
oai:egreta.uab.cat:publications/f6f1f8f9-4628-4ccd-9faa-8cede39677ff
Anar a:
https://ddd.uab.cat/idregistres.py
i copiar el oai a la casella "Consulteu què hem recollit via OAI i si ho tenim en local"
Comparar el registre que ens dóna amb el del DDD i si no és el mateix esborrar la 035 amb oai del registre del DDD
ES Actualitzat per Eulàlia Serre fa aproximadament 4 anys
- Assignat a ha canviat de Eulàlia Serre a Cristina Azorin
He revisat aquests registres. La majoria tenien l'OAI correcte, segons m'ha semblat. Entenc que ja no he de fer res més.
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
M'ho estic mirant i revisant respecte als procediments OAI que tenim rodats i provats. Examinant el què dona se sí la sortida OAI de les tesis d'Egreta, el que queda clar és que en DC són registres molt breus: títol, autor i any, i poca cosa més (en Mods també els directors de tesi). En Dublin Core o en Mods (els altres formats no donen resultat):
- https://egreta.uab.cat/ws/oai?verb=ListRecords&metadataPrefix=oai_dc&set=studenttheses:all&from=2022-01-01
- https://egreta.uab.cat/ws/oai?verb=ListRecords&metadataPrefix=mods&set=studenttheses:all&from=2022-01-01
Ara mateix en tenen 1197, si consulteu el final de tot de qualsevol dels dos llistats anteriors:
<resumptionToken cursor="0" completeListSize="1179">
mods/1179/177616593/100/0/30998618/studenttheses:all/2022-01-01T00:00:00Z/x
</resumptionToken>
És a dir, que nosaltres els tenim millor i, si alguna cosa podem agafar dels seus registres és l'identificador Egreta. Entenc doncs que només es tracta de posar-hi l'oaiset studenttheses:all a ServidorsOAIqueRecolectem, la columna d'importació marcar-la amb ?, deixar que el programa miri de lligar-los i a partir d'aquí, via l'apartat 2 (Registres possiblement identificats) de https://ddd.uab.cat/idregistres.py, manualment confirmar-los amb la +.
CA Actualitzat per Cristina Azorin fa quasi 4 anys
Ferran Jorba va escriure:
M'ho estic mirant i revisant respecte als procediments OAI que tenim rodats i provats. Examinant el què dona se sí la sortida OAI de les tesis d'Egreta, el que queda clar és que en DC són registres molt breus: títol, autor i any, i poca cosa més (en Mods també els directors de tesi). En Dublin Core o en Mods (els altres formats no donen resultat):
- https://egreta.uab.cat/ws/oai?verb=ListRecords&metadataPrefix=oai_dc&set=studenttheses:all&from=2022-01-01
- https://egreta.uab.cat/ws/oai?verb=ListRecords&metadataPrefix=mods&set=studenttheses:all&from=2022-01-01
Ara mateix en tenen 1197, si consulteu el final de tot de qualsevol dels dos llistats anteriors:
[...]
És a dir, que nosaltres els tenim millor i, si alguna cosa podem agafar dels seus registres és l'identificador Egreta. Entenc doncs que només es tracta de posar-hi l'oaiset
studenttheses:alla ServidorsOAIqueRecolectem, la columna d'importació marcar-la amb ?, deixar que el programa miri de lligar-los i a partir d'aquí, via l'apartat 2 (Registres possiblement identificats) de https://ddd.uab.cat/idregistres.py, manualment confirmar-los amb la +.
Ens havien explicat que carregaven les tesis de Teseo, així que pensava que fins i tot en tindrien més que nosaltres, perquè la idea era tenir també els anys que no estan en el DDD. Caldria confirmar amb el Marc o la Rosa exactament quantes tesis tenen (1.197 em semblen poques) i que realment estiguin totes en aquesta sortida OAI.
El procediment que proposes em sembla bé, tot i que preferiria que dins del idregistres estiguessin ben diferenciades. És fàcil que amb el mateix títol de la tesi tinguin articles o fins i tot llibres, i ens confonguem.
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Ja em posaré en contacte amb el Marc per confirmar aquesta xifra.
Pel que fa a con diferenciar-los, sí que sabem que pel nom es pot saber, perquè hi apareix studenttheses:
- oai:egreta.uab.cat:publications/3a27bfb1-8ef9-436b-9491-3836da08a711
- oai:egreta.uab.cat:studenttheses/996229ad-fb39-41a3-8363-baa9881b1b69
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Perdó, de tesis en tenen 25.870. M'he confós perquè he fet petició des del primer de gener d'enguany. Sense limitar-lo per dates en surten moltes més:
- https://egreta.uab.cat/ws/oai?verb=ListRecords&metadataPrefix=oai_dc&set=studenttheses:all&from=2022-01-01
- https://egreta.uab.cat/ws/oai?verb=ListRecords&metadataPrefix=oai_dc&set=studenttheses:all
Segurament n'hi hauran que no són de la UAB però que les dirigeixen professors nostres. Nosaltres en tenim una mica més de 10.000 (https://ddd.uab.cat/collection/tesis)
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Acabo d'afegir l'oaiset studenttheses:all a ServidorsOAIqueRecolectem, i veurem què ens trobem demà.
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Sembla que funciona bé. Ara mateix hi tenim una mica més de 2.000 registres; és així perquè (ja no me n'enrecordava) jo hi vaig posar un límit de recol·lectar màxim 1.000 registres via OAI cada nit, per no col·lapsar el sistema si n'entraven massa de cop, com és el cas. Ahir en vaig fer uns de proves i dues tongades de 1.000 registres:
https://ddd.uab.cat/idregistres.py/search?q=studenttheses:all
Pel que fa a la identificació, sembla que funciona prou bé, i majoritàriament proposa identificar-les amb tesis; potser alguna amb algun document de Recercat, per exemple:
- https://ddd.uab.cat/idregistres.py/review_possible_matches?year=2020
- https://ddd.uab.cat/idregistres.py/review_possible_matches?year=2019
- https://ddd.uab.cat/idregistres.py/review_possible_matches?year=2018
Al meu entendre, es tracta que qui confirmi els lligams, quan vegi que a l'identificador hi ha studenttheses, el lligam només es pot fer amb una tesi; i si no, dir que no, que potser l'endemà sí que trobarà la tesi, si tenim més d'un document amb el mateix títol.
Mentrestant, aniré recol·lectant de dia en tongades de 1000, perquè de nit no agafaria els anteriors a l'any actual (2022).
CA Actualitzat per Cristina Azorin fa quasi 4 anys
- Assignat a ha canviat de Cristina Azorin a Ferran Jorba
He fet alguns del 2019 i he afegit la 246 del títol en català que és com sembla que estan a Egreta, en el registre del DDD.
Si el procediment que estem seguint és correcte ja es pot tancar la tasca, oi Ferran?
CA Actualitzat per Cristina Azorin fa quasi 4 anys
Mireu aquest cas, és un treball de final de doctorat!!!
https://ddd.uab.cat/idregistres.py/review_possible_matches?year=1995
No pot ser que la tesi a Egreta sigui també del 1995, no?
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Cristina Azorin va escriure:
Si el procediment que estem seguint és correcte ja es pot tancar la tasca, oi Ferran?
Jo preferiria tancar-la al menys quan tinguem al menys les seves 25.000 tesis al idregistres, i tinguem una mica més de perspectiva.
CA Actualitzat per Cristina Azorin fa quasi 4 anys
D'acord, quan acabi també podem valorar si algun dels camps d'Egreta ens interessa pel DDD...
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Pel què fa als fitxers (urls) que ens podem trobar en les tesis identificades, si hi són a Egreta resulta que acaben també als nostres registres del DDD, com aquests exemples de Teseo:
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Ara en tenim indexades poc més de 9000, i els 1000 d'avui s'aniran recol·lectant al llarg del dia. Encara en queda una bona colla per arribar als 25.000. Si anem a 1000 per dia, uns 15 dies:
https://ddd.uab.cat/idregistres.py/search?q=studenttheses:all
FJ Actualitzat per Ferran Jorba fa quasi 4 anys
Avui s'han acabat de carregar les últimes 867 tesis de les 25.883 que tenen a Egreta; aquestes darreres s'indexaran demà de matinada.
Ara queda anar-les marcant a l'apartat 2 (Registres possiblement identificats) de https://ddd.uab.cat/idregistres.py, tot i que segurament, quan acabi, haurem de fer un repàs de quantes possiblement estarien, i mirar si a través d'una identificació més laxa en podem lligar més.
CA Actualitzat per Cristina Azorin fa més de 3 anys
- S'ha afegit copiada a Tasca #7349: No lligar els registres d'EGRETA amb registres de la col·lecció NODRETS del DDD
CA Actualitzat per Cristina Azorin fa aproximadament 3 anys
- Estat ha canviat de En curs a Tancada
CA Actualitzat per Cristina Azorin fa aproximadament 3 anys
- Paraula clau s'ha suprimit (
NCR)