Tasca #3841
tancatCorregir les etiquetes de matèries de Recercat
Descripció
Els registres que carreguem de Recercat via via OAI tenen les matèries malament en diferents aspectes, i cal corregir-les. Agafem els següent registre com a exemple:
http://www.recercat.cat/handle/2072/250911?show=full
En primer lloc, hi ha un malentès entre etiquetes DC qualificades que hauria d'anar a 650 (llista d'encapçalament de matèries) i les que haurien d'anar a la 653 (paraula clau). Fins ara, i de manera equivocada, estàvem fent aquesta equivalència:
- dc.subject -> 650
- dc.subject.other -> 653
- dc.subject.udc -> 080
Les dues primeres s'han de bescanviar, és a dir, dc.subject serà 653 i dc.subject.other 650.
En segon lloc, caldria passar a subcamps Marc21 correctes enlloc dels guionets dobles. És a dir, haurien de canviar-se per $x, $y o $z.
Com saber quin ha de ser? Proposo la següent solució. A partir de les matèries 600, 610, 611 i 650 que ja tinguem al DDD, s'agafen tots els subcamps i se'n fa una llista dels que són $x, els que són $y i els que són $z. Si un dels subcamps amb -- estan en els de $y o en els de $z, els marquem així i, si no el trobem, va al $x.
Aquest serà un programa que s'executarà cada dia i anirà corregint (millorant) tots els registres que tinguem de Recercat. Així, si hi ha un error d'un subcamp amb $x que ha de ser en $y (o $z), només cal corregir-ho en un sol registre i a partir de l'endemà s'aniran corregint tots els altres.
Hem de decidir bé en quin ordre fem els canvis. Ho hem parlat amb la Cristina i creiem que primer cal provar el programa i fer-ne proves (abans al DDD de proves), i fem un càlcul de quan pot trigar en corregir-ho tot. Mentre fem els canvis en real, parem la recol·lecció de Recercat i canviem les equivalències de les etiquetes al programa. Quan hagi acabat, continuem la recol·lecció i tornem a canviar el programa de correccions perquè ja no canviï les etiquetes, sinó només els subcamps.