Tasca #2637
tancatCanviar la codificació del handle de la comunitat de Recercat de la 035 a la 762
Descripció
Invenio utilitza l'etiqueta 035 per identificar un registre en un sistema remot i, per tant, si aquest registre es torna a carregar al sistema local, sobreescriu el registre antic amb el nou.
En el cas de Recercat, hi posem, tal com recomana el CERN, l'identificador OAI remot, ex:
035 __ $a oai:www.recercat.cat:2072/183679
El problema està quan, en el seu moment, vam veure la necessitat de guardar el codi (el handle) de la comunitat (col·lecció) de Recercat on hi ha el document, per si ens fa falta per fer subcol·leccions locals. Vam decidir posar-ho al subcamp local per excel·lència, el $9 i, per tant, quedava una 035 així:
035 __ $9 hdl_2072_202567 $a oai:www.recercat.cat:2072/184037
Doncs bé, quan un document a Recercat canvia de comunitat (de col·lecció), per Invenio canvia l'identificador únic, perquè resulta que té en compte tots els valors de la 035. Per exemple, el registre anterior se'ns ha duplicat amb aquest valor:
035 __ $9 hdl_2072_5174 $a oai:www.recercat.cat:2072/184037
La conclusió, doncs, és que va ser una mala decissió posar aquest codi a la 035.
Després de mirar-nos-ho amb la Cristina hem decidit, fins que no es demostri el contrari, posar-lo a la 762 $w (http://www.loc.gov/marc/bibliographic/bd762.html)
Fitxers
FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys
Aquesta tasca s'ha de fer per fases:
- Passar totes els 035 $9 a 762 $w.
- Canviar la configuració de la recol·lecció perquè guardi aquest valor a la 762.
- Detectar els duplicats i eliminar-los.
La primera fase pot ser una mica lenta, perquè són molts registres i el sistema reindexarà el text complet de tots ells, i mentrestant no hi pot haver-hi cap recolecta, perquè hi hauria molts duplicats.
Tenim temps fins divendres per decidir si parem la recol·lecta mentrestant...
FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys
Ja he preparat el script que fa els canvis i està en marxa. Exemple d'un dels primers registres arreglats:
https://ddd.uab.cat/record/114984/export/hm
Els anirà arreglant del més recent als més antics, també (i sobretot) el cap de setmana. Aprofito per normalitzar els fitxers que a Recercat tenen espais, i que antigament els espais quedaven codificats amb +, i que ara estan amb _. Quan el registre es corregeix a Recercat i arriba corregit, no troba el fitxer codificat amb +. Com que ara els haurà de reindexar tots, crec que és un excel·lent moment per fer aquesta correcció.
Mentrestant he parat la collita periòdica, perquè si no es crearien un munt de duplicats.
FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys
- Estat ha canviat de Creada a En curs
Ja estan traslladats tots els $9 de la 035 de Recercat a la 762 $w.
FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys
Ja he canviat les regles de transformació perquè el valor del setSpec passi a la 762 $w.
FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys
- S'ha afegit Fitxer recercat_duplicats.txt recercat_duplicats.txt
Hi ha un total de 124 documents de Recercat que han quedat duplicats al DDD a resultes d'haver canviat de col·leccions. Adjunto els identificadors OAI (que són cercables).
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys
Ja les hem arreglat!
FJ Actualitzat per Ferran Jorba fa aproximadament 12 anys
- Estat ha canviat de En curs a Tancada
Moltes gràcies!