Projecte

General

Perfil

Accions

Tasca #9103

obert
CA CB

Repassar i corregir els possibles registres duplicats a Egreta

Tasca #9103: Repassar i corregir els possibles registres duplicats a Egreta

Afegit per Cristina Azorin fa 8 mesos. Actualitzat fa 1 dia.

Estat:
En curs
Prioritat:
Normal
Assignat a:
Temàtica prevista:
Inici:
01-08-2025
Data de venciment:
31-07-2026 (Venç en aproximadament 4 mesos)
Paraula clau:

Descripció

El DDD proporciona un llistat amb enllaços duplicats a Egreta. Caldria fer un repartiment a les biblioteques per comprovar que siguin duplicats reals i fusionar els registres.

https://ddd.uab.cat/data/recercauab/egreta-duplicats-al-ddd.tab

o un csv per descarregar https://ddd.uab.cat/data/recercauab/egreta-duplicats-al-ddd.csv


Fitxers

Repartiment_egreta-duplicats-al-ddd_a2025m9d4.xlsx (214 KB) Repartiment_egreta-duplicats-al-ddd_a2025m9d4.xlsx Cristina Azorin, 08-09-2025 11:53
UUID.png (124 KB) UUID.png Montse Bravo, 18-09-2025 16:50
UUIDfusionat.png (90.3 KB) UUIDfusionat.png Montse Bravo, 18-09-2025 16:57
035 eliminada automàticament al DDD.jpg (225 KB) 035 eliminada automàticament al DDD.jpg Marta Jordan, 26-09-2025 12:05
Imatge 2.jpg (43.8 KB) Imatge 2.jpg Marta Jordan, 26-09-2025 12:51
Imatge 1.jpg (65.5 KB) Imatge 1.jpg Marta Jordan, 26-09-2025 12:51

Tasques relacionades 2 (1 oberta1 tancada)

relacionat amb Accions de millora - Millora #9134: 2025/156 Revisar i corregir possibles registres duplicats a EgretaEn cursCarme Besson17-09-202527-03-2026Accions
relacionat amb DDD - Tasca #9417: Gestionar els uuids anteriors d'EgretaTancadaFerran Jorba10-03-2026Accions

CB Actualitzat per Carme Besson fa 7 mesos Accions #1

  • Assignat a ha canviat de Carme Besson a Cristina Azorin

Cristina: Ho posaré com a punt d'ordre del dia per la reunió de SDR del mes de setembre. Fes una proposta de repartiment per biblioteques per presentar durant la reunió. Gràcies.

CA Actualitzat per Cristina Azorin fa 7 mesos Accions #2

  • S'ha afegit Fitxer Repartiment_egreta-duplicats-al-ddd_a2025m9d4.xlsx
  • Estat ha canviat de Creada a En curs
  • Assignat a ha canviat de Cristina Azorin a Carme Besson

Des de la UTP fem un repartiment provisional.

CA Actualitzat per Cristina Azorin fa 7 mesos Accions #3

  • Fitxer s'ha suprimit (Repartiment_egreta-duplicats-al-ddd_a2025m9d4.xlsx)

CA Actualitzat per Cristina Azorin fa 6 mesos Accions #5

  • Data de venciment ha canviat de 19-12-2025 a 31-01-2026

És reparteix la feina a la reunió de DiR del 17 de setembre de 2025. Parlarem de com va la feina a la reunió de gener de 2026.

CB Actualitzat per Carme Besson fa 6 mesos Accions #6

  • S'ha afegit relacionat amb Millora #9134: 2025/156 Revisar i corregir possibles registres duplicats a Egreta

MB Actualitzat per Montse Bravo fa 6 mesos Accions #7

Explico una casuística que he trobat per si pot ser d'ajuda
Al DDD trobem 2-3 etiquetes 035 que inclouen el que a Egreta és el UUID del registre. Exemple:
035 __ $a oai:egreta.uab.cat:publications/8f99a015-f8e6-4510-be19-4cc680633b2b. El UUID d'aquest registre a Egreta és 8f99a015-f8e6-4510-be19-4cc680633b2b. Si fem una cerca per ell a Egreta trobem el registre. El problema és que al fusionar 2 registres probablement no sabem quin UUID ha quedat com a principal. Això és important per poder esborrar al DDD l'altra 035. On trobem a Egreta el UUID d'un registre?

De tota manera a Egreta, un cop fusionat el registre, podem cercar pels dos UUID. Aixi es veu un registre fusionat

CB Actualitzat per Carme Besson fa 6 mesos Accions #8

Cristina,
Pots confirmar que cal esborrar la 035 i que no serà automàtic? Gràcies!

FJ Actualitzat per Ferran Jorba fa 6 mesos Accions #10

Això és una mica estrany. Si mirem els dos identificadors d'Egreta a idregistres, el primer el tenim i existeix, és "normal", però el segon només el tenim referenciat a la 035 del registre; no "existeix", en el sentit que ni el tenim a idregistres, no consta ni tan sols com a esborrat.

Darrerament he observat comportaments una mica irregulars del servidor OAI d'Egreta, que no sé explicar, però que no quadren. Un pot ser aquest mateix. Si el registre existeix, com pot ser que no ens hagi arribat? Perquè hi podem accedir. Com pot ser que no ens el trobéssim en el seu moment amb les actualtizacions diàries. I si mirem status, el trobem com a approved i published.

Potser em tocarà recollir via oai explícitament aquells registres dels quals en tenim referències al DDD i en canvi no consten a idregistres.

CB Actualitzat per Carme Besson fa 6 mesos Accions #11

  • Assignat a ha canviat de Carme Besson a Cristina Azorin

Cristina,

Caldria que avisesssis a les biblioteques amb el què han de fer amb la 035, sisplau.

Gràcies!

FJ Actualitzat per Ferran Jorba fa 6 mesos Accions #12

  • Assignat a ha canviat de Cristina Azorin a Carme Besson

Carme,

és que les 035 d'Egreta haurien de funcionar automàticament, s'afegeixen a partir de l'idregistres quan es confirma que són autoritats, i (en general) s'esborren de la 035 quan a Egreta s'eliminen o es fusionen. El problema és que hem vist algun cas (com el que ara ens estem mirant) que la informació d'aquest registre a Egreta no ens ha arribat, i per tant ni tan sols idregistres el pot proposar com a possible duplicat i l'Eulàlia confirmi (o no) que ho és.

És a dir, que, tal com ho entenc jo i en termes generals, no caldria gestionar-les des de les biblioteques, a no ser que hi hagi, per exemple, un duplicat que el programa idautoritats no sigui capaç de detectar-lo perquè la versió a Egreta i al DDD tinguin diferències que informàticament faci que no els detecti.

CB Actualitzat per Carme Besson fa 6 mesos Accions #13

  • Assignat a ha canviat de Carme Besson a Cristina Azorin

D'acord, Ferran. Doncs atenent al que dius, des de les biblioteques no farem res tal i com ens va dir la Cristina a la reunió de SDR del dia 17/10.

MJ Actualitzat per Marta Jordan fa 6 mesos Accions #14

Bon dia:

Relacionat amb tot això, a la BCT ens estem trobant força registres en què no hem de tocar res perquè a Egreta ja només hi ha un registre i al DDD han desaparegut les 035 "sobrants" de manera automàtica.

Exemple:

Registre https://ddd.uab.cat/record/318398 - constava com triplicat a Egreta. Quan ho hem comprovat, a Egreta només hi havia un únic registre i al DDD només quedava la 035 que apunta cap a aquest registre d'Egreta. Les altres dues 035 es van eliminar automàticament del DDD segons l'històric (adjunto imatge).

Sembla que a Eggreta estan fent coses? I el DDD sí elimina automàticament 035. hem posat un exemple, però ens hem trobat en diversos casos.

CA Actualitzat per Cristina Azorin fa 6 mesos Accions #15

  • Assignat a ha canviat de Cristina Azorin a Ferran Jorba

Penso que hem d'aturar la revisió de l'excel, perquè clarament és la foto d'un moment concret i hi ha molta gent treballant amb EGRETA. Haurem de treballar només amb el llistat (que s'actualitza automàticament cada dia)
https://ddd.uab.cat/data/recercauab/egreta-duplicats-al-ddd.tab

No se si deixant, per exemple, que treballi un mes cada biblioteca, i anar rotant... Si teniu altres propostes...

Ferran, aquest seria un exemple de registre d'EGRETA fusionat https://ddd.uab.cat/idregistres.py/search?q=oai%3Aegreta.uab.cat%3Apublications%2F8bb9cabb-b4e4-4fbd-951d-0b0fa368558c

aquesta 035 s'hauria d'eliminar del registre del DDD.
https://ddd.uab.cat/record/318530
Cal comprovar que això s'estigui fent automàticament.

FJ Actualitzat per Ferran Jorba fa 6 mesos Accions #16

Sí, sí, gràcies per confirmar que ja s'eliminen automàticament les 035 que ja no existeixen a Egreta perquè s'havien fusionat. En principi hi comptava, però sempre va bé una confirmació.

Acabo de comptar quantes referències a registres d'Egreta tenim a la 035 però que no consten a idregistres. Són 105. No ho entenc, però està clar que aquest recompte i recuperació posterior l'hauré d'incloure en els procediments automàtics diaris. Uns exemples:

  • oai:egreta.uab.cat:publications/216f953f-003a-4a2a-9ee4-5718e85113c3
  • oai:egreta.uab.cat:publications/540bf7c6-ad03-47a7-9ad6-f3fbfd37ce22
  • oai:egreta.uab.cat:publications/694986e6-abe7-4893-981e-23c152d0610e
  • oai:egreta.uab.cat:publications/894343ae-7856-4b6d-924b-c5ae0b1d0bf5
  • oai:egreta.uab.cat:publications/95357be5-837d-4600-a4da-133a4064c49e
  • oai:egreta.uab.cat:publications/b0f9b112-a97d-45ef-acc7-bc802c4f39ad
  • oai:egreta.uab.cat:publications/c5c8bc2d-4009-4261-9783-b06c3f3dab99
  • oai:egreta.uab.cat:publications/ce9f5d7a-4e68-454e-968b-f26ae49f744c
  • oai:egreta.uab.cat:publications/da630caf-bcdd-462a-aa71-439b6f763430
  • oai:egreta.uab.cat:publications/f193b55b-abdf-4b92-a7f9-1d4bb87654dc

Ara els importaré manualment, i miraré si per aquesta nit ja puc incloure aquest repàs perquè es faci cada dia automàticament.

MJ Actualitzat per Marta Jordan fa 6 mesos Accions #17

Ho hem estat mirant amb la Cristina, i sospitem el perquè hi ha registres del DDD on s'elimina automàticament la 035 i en d'altres no s'elimina.

Resulta que si hem fusionat 2 registres a Egreta, la fusió no elimina les UUID. El que fa el sistema és deixar una UUID com a "actual" i l'altra queda marcada com a "anterior" (veure imatge 1). Això significa que, dins Egreta, les dues UUID segueixen actives, perquè les dues són cercables. I sospitem que, per aquest motiu, com que la UUID antiga segueix existint dins Egreta, no s'esborra mai automàticament la 035 del DDD.

D'altra banda, hem detectat que aquells registres d'Egreta que no hem fusionat perquè, quan hi hem entrat, el propi Egreta ha fet el control de qualitat dels duplicats, el que fa el sistema Egreta és eliminar els registres duplicats, no els fusiona. I només es veu una única UUID, la del registre que no s'elimina (veure imatge 2). Això implica que les UUID desapareixen de la plataforma. En aquests casos és quan veiem que al DDD han desaparegut automàticament les 035 afectades.

CA Actualitzat per Cristina Azorin fa 5 mesos Accions #18

  • Assignat a ha canviat de Ferran Jorba a Cristina Azorin
  • Prioritat ha canviat de Normal a Baixa

A la reunió de Docència i Recerca del 24 d'octubre decidim aturar aquesta revisió fins a la implementació de Muscat. En aquests moments no podem dedicar-hi recursos.

CA Actualitzat per Cristina Azorin fa 19 dies Accions #19

  • Data de venciment ha canviat de 31-01-2026 a 31-07-2026
  • Assignat a ha canviat de Cristina Azorin a Ferran Jorba
  • Prioritat ha canviat de Baixa a Normal

FJ Actualitzat per Ferran Jorba fa 15 dies Accions #20

  • S'ha afegit relacionat amb Tasca #9417: Gestionar els uuids anteriors d'Egreta

CA Actualitzat per Cristina Azorin fa 1 dia Accions #21

  • Assignat a ha canviat de Ferran Jorba a Carme Besson

A la reunió de docència i recerca del 23 de març decidim passar la tasca a la Carme i ella ho parlarà amb Egreta.

Accions

També disponible a: PDF Atom