Tasca #3841
tancatCorregir les etiquetes de matèries de Recercat
Descripció
Els registres que carreguem de Recercat via via OAI tenen les matèries malament en diferents aspectes, i cal corregir-les. Agafem els següent registre com a exemple:
http://www.recercat.cat/handle/2072/250911?show=full
En primer lloc, hi ha un malentès entre etiquetes DC qualificades que hauria d'anar a 650 (llista d'encapçalament de matèries) i les que haurien d'anar a la 653 (paraula clau). Fins ara, i de manera equivocada, estàvem fent aquesta equivalència:
- dc.subject -> 650
- dc.subject.other -> 653
- dc.subject.udc -> 080
Les dues primeres s'han de bescanviar, és a dir, dc.subject serà 653 i dc.subject.other 650.
En segon lloc, caldria passar a subcamps Marc21 correctes enlloc dels guionets dobles. És a dir, haurien de canviar-se per $x, $y o $z.
Com saber quin ha de ser? Proposo la següent solució. A partir de les matèries 600, 610, 611 i 650 que ja tinguem al DDD, s'agafen tots els subcamps i se'n fa una llista dels que són $x, els que són $y i els que són $z. Si un dels subcamps amb -- estan en els de $y o en els de $z, els marquem així i, si no el trobem, va al $x.
Aquest serà un programa que s'executarà cada dia i anirà corregint (millorant) tots els registres que tinguem de Recercat. Així, si hi ha un error d'un subcamp amb $x que ha de ser en $y (o $z), només cal corregir-ho en un sol registre i a partir de l'endemà s'aniran corregint tots els altres.
Hem de decidir bé en quin ordre fem els canvis. Ho hem parlat amb la Cristina i creiem que primer cal provar el programa i fer-ne proves (abans al DDD de proves), i fem un càlcul de quan pot trigar en corregir-ho tot. Mentre fem els canvis en real, parem la recol·lecció de Recercat i canviem les equivalències de les etiquetes al programa. Quan hagi acabat, continuem la recol·lecció i tornem a canviar el programa de correccions perquè ja no canviï les etiquetes, sinó només els subcamps.
JP Actualitzat per Javier Planella fa aproximadament 10 anys
Mirar el camp 035: te que tindre "recercat"
un semblant: /bin/fix700e.py
fa una llista de candidats: def get_candidate_recids():
i a partir d'aquesta es treballa
subcamps 650:
$x: forma
$y: geografic
$z: temporal
FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys
Javier, després de pensar-m'ho, crec que és més fàcil fer-ho en dues fases:
- un script que intercanviï les etiquetes 650 i 653, i quan estigui, podem fer que els nous ja ho carreguin correctament. Els registres candidats serien aquells que tenen 'recercat' a la 035.
- un cop fet això, un d'indepenent, que miri quines etiquetes 650 tenen els dos guions (--) per assignar-li's els subcamps correctes (seguint la lògica que havíem comentat ahir). Els registres candidats serien els que tenen dos guions a la 650 (segons com, no caldria ni mirar si són de Recercat...).
Vist des d'avui, em sembla que barrejar les dues correccions ho embolica massa.
FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys
De fet, el primer script, el que canviï les 650 per 653 (i viceversa) és el més delicat, perquè només es pot passar una vegada, i ha de funcionar a la primera, sense possibilitat de repetir-se. Però hi com que són més de 4800 registres (https://ddd.uab.cat/search?p=recercat), crec que ha de fer un bolcat a fitxer tots d'una i després fer les càrregues en blocs de, p. ex., 500 en 500, el cap de setmana. I s'ha de sincronitzar amb les càrregues setmanals via OAI de Recercat.
No es pot tornar a executar un segon cop perquè si no, tornaria a passar les 650 a 653 i ho tornaria a deixar malament. En canvi, el segon, els registres corregits ja no tenen ambigüetat, perquè ja no tenen el doble guió (--) a la 650. És aquest segon el que es podrà executar cada dia per anar corregint el que ens arribi malament.
CA Actualitzat per Cristina Azorin fa aproximadament 10 anys
Si sincronitzar les càrregues és massa complicat es poden aturar durant un temps, si les biblioteques estan avisades no passa res. Els materials que ara es carreguen via Recercat són sobretot treballs i s'acumulen als finals dels semestres.
FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys
No, jo no crec que ho sigui, de complicat. De fet, si separem les dues correccions com (ara) proposo jo, tot es simplifica, i en un sol cap de setmana seria possible de bescanviar les 650 amb les 653. És un canvi purament mecànic, fàcil de programar i fàcil de saber que s'ha fet bé.
La correcció de subdivisions és més subtil de fer (però no especialment) i, com que val la pena que estigui fent correccions diàriament, millor programar-lo a part.
JP Actualitzat per Javier Planella fa aproximadament 10 anys
- Estat ha canviat de Creada a En curs
Hem deixat la primera part a punt
Dema Divendres aprofitant que es festa fara la carrega del 4791 registres
Aturada la importacio OAI de Recercat a DDD (administracio DDD)
Aturat Job de carregar pdf's de Recercat (~/bin/monday.sh)
Shell: ~/bin/fix65Xrecercat.sh
FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys
Cristina i Javier,
jo crec que la primera part ha anat bé, ex:
I, a més, els ha completat tots. De moment, ja he canviat el script de conversió perquè, a partir d'ara, els dc.subject vagin al 653 i el dc.subject.other a 650, i l'he tornat a preparar perquè s'executi cada dilluns de matinada.
Cristina, ara falta reactivar el client OAI (via web del DDD) perquè els torni a recollir.
Javier, a partir d'ara hem de preparar el programa per la conversió dels subcamps (--) de les 650 a $x, $y i $z.
CA Actualitzat per Cristina Azorin fa aproximadament 10 anys
Ja he tornat a activar el client OAI (via web del DDD) - 'weekly'
JP Actualitzat per Javier Planella fa aproximadament 10 anys
El programa de fer les subdivisons x,y,z ja esta fet (fix6XXxyz.py). Ho hem provat amb 10 registres i funciona bé:
- http://ddd.uab.cat/record/145852
- http://ddd.uab.cat/record/145802
- http://ddd.uab.cat/record/145801
- http://ddd.uab.cat/record/145798
- http://ddd.uab.cat/record/145655
- http://ddd.uab.cat/record/145654
- http://ddd.uab.cat/record/145610
- http://ddd.uab.cat/record/145609
- http://ddd.uab.cat/record/145607
- http://ddd.uab.cat/record/145602
Les subdivisions que no apareixen a cap altre registre les hem deixades amb ' -- '
Falta en vis-i-plau per posar-ho amb el cron
ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys
Bon dia, moltes gràcies per la vostra feina.
Ara tenim un problema els registres de la XREAP (http://www.recercat.cat/handle/2072/12898) que provenen de la UB i que tenen totes les matèries com a 650. Són 144 i s'han de repassar a ma, un a un per poder discriminar el que són les paraules clau.
També ens agradaria fer una repassada per sobre a la pàgina de matèries per poder detectar casos conflictius, per exemple un sol guió o un punt...
1 Administració pública - Arxius - Catalunya
1 Administració pública. Govern. Assumptes militars
Quan acabem aquesta feina us avisem per a que comenceu amb els canvis de guionets.
No patiu, ho farem una mica per sobre perquè el millor serà que busquem els -- quan vosaltres acabeu el màxim de deteccions automàtiques.
A tto això entenem que quan hi hagi noves càrregues o registres modificats de recercat no perdrem la feina, oi?
ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys
- Assignat a ha canviat de Javier Planella a Eulàlia Serre
CA Actualitzat per Cristina Azorin fa aproximadament 10 anys
- Assignat a ha canviat de Eulàlia Serre a Ferran Jorba
Respecte al repàs de les matèries del XREAP l'Eulàlia ja ha acabat.
En la revisió general veig que en alguns casos hi ha matèries que porten un punt al final. Potser es podria fer una neteja de punts '.'. Penso que els únics que estan bé són a.C., S. (per als segles). 2.0 i etc. jo no n'he vist cap més de rellevant.
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Estat ha canviat de En curs a Tancada
S'està fent correctament.