Projecte

General

Perfil

Accions

Tasca #3841

tancat
FJ FJ

Corregir les etiquetes de matèries de Recercat

Tasca #3841: Corregir les etiquetes de matèries de Recercat

Afegit per Ferran Jorba fa aproximadament 10 anys. Actualitzat fa més de 8 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Gestió de la col·lecció
Inici:
02-02-2016
Data de venciment:
Paraula clau:

Descripció

Els registres que carreguem de Recercat via via OAI tenen les matèries malament en diferents aspectes, i cal corregir-les. Agafem els següent registre com a exemple:

http://www.recercat.cat/handle/2072/250911?show=full

En primer lloc, hi ha un malentès entre etiquetes DC qualificades que hauria d'anar a 650 (llista d'encapçalament de matèries) i les que haurien d'anar a la 653 (paraula clau). Fins ara, i de manera equivocada, estàvem fent aquesta equivalència:

  • dc.subject -> 650
  • dc.subject.other -> 653
  • dc.subject.udc -> 080

Les dues primeres s'han de bescanviar, és a dir, dc.subject serà 653 i dc.subject.other 650.

En segon lloc, caldria passar a subcamps Marc21 correctes enlloc dels guionets dobles. És a dir, haurien de canviar-se per $x, $y o $z.

Com saber quin ha de ser? Proposo la següent solució. A partir de les matèries 600, 610, 611 i 650 que ja tinguem al DDD, s'agafen tots els subcamps i se'n fa una llista dels que són $x, els que són $y i els que són $z. Si un dels subcamps amb -- estan en els de $y o en els de $z, els marquem així i, si no el trobem, va al $x.

Aquest serà un programa que s'executarà cada dia i anirà corregint (millorant) tots els registres que tinguem de Recercat. Així, si hi ha un error d'un subcamp amb $x que ha de ser en $y (o $z), només cal corregir-ho en un sol registre i a partir de l'endemà s'aniran corregint tots els altres.

Hem de decidir bé en quin ordre fem els canvis. Ho hem parlat amb la Cristina i creiem que primer cal provar el programa i fer-ne proves (abans al DDD de proves), i fem un càlcul de quan pot trigar en corregir-ho tot. Mentre fem els canvis en real, parem la recol·lecció de Recercat i canviem les equivalències de les etiquetes al programa. Quan hagi acabat, continuem la recol·lecció i tornem a canviar el programa de correccions perquè ja no canviï les etiquetes, sinó només els subcamps.


Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #3886: XREAP etiquetes 650 i 653TancadaEulàlia Serre19-02-2016Accions

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions #1

Mirar el camp 035: te que tindre "recercat"
un semblant: /bin/fix700e.py
fa una llista de candidats: def get_candidate_recids():
i a partir d'aquesta es treballa

subcamps 650:
$x: forma
$y: geografic
$z: temporal

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions #2

Javier, després de pensar-m'ho, crec que és més fàcil fer-ho en dues fases:

  1. un script que intercanviï les etiquetes 650 i 653, i quan estigui, podem fer que els nous ja ho carreguin correctament. Els registres candidats serien aquells que tenen 'recercat' a la 035.
  2. un cop fet això, un d'indepenent, que miri quines etiquetes 650 tenen els dos guions (--) per assignar-li's els subcamps correctes (seguint la lògica que havíem comentat ahir). Els registres candidats serien els que tenen dos guions a la 650 (segons com, no caldria ni mirar si són de Recercat...).

Vist des d'avui, em sembla que barrejar les dues correccions ho embolica massa.

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions #3

De fet, el primer script, el que canviï les 650 per 653 (i viceversa) és el més delicat, perquè només es pot passar una vegada, i ha de funcionar a la primera, sense possibilitat de repetir-se. Però hi com que són més de 4800 registres (https://ddd.uab.cat/search?p=recercat), crec que ha de fer un bolcat a fitxer tots d'una i després fer les càrregues en blocs de, p. ex., 500 en 500, el cap de setmana. I s'ha de sincronitzar amb les càrregues setmanals via OAI de Recercat.

No es pot tornar a executar un segon cop perquè si no, tornaria a passar les 650 a 653 i ho tornaria a deixar malament. En canvi, el segon, els registres corregits ja no tenen ambigüetat, perquè ja no tenen el doble guió (--) a la 650. És aquest segon el que es podrà executar cada dia per anar corregint el que ens arribi malament.

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions #4

Si sincronitzar les càrregues és massa complicat es poden aturar durant un temps, si les biblioteques estan avisades no passa res. Els materials que ara es carreguen via Recercat són sobretot treballs i s'acumulen als finals dels semestres.

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions #5

No, jo no crec que ho sigui, de complicat. De fet, si separem les dues correccions com (ara) proposo jo, tot es simplifica, i en un sol cap de setmana seria possible de bescanviar les 650 amb les 653. És un canvi purament mecànic, fàcil de programar i fàcil de saber que s'ha fet bé.

La correcció de subdivisions és més subtil de fer (però no especialment) i, com que val la pena que estigui fent correccions diàriament, millor programar-lo a part.

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions #6

  • Estat ha canviat de Creada a En curs

Hem deixat la primera part a punt
Dema Divendres aprofitant que es festa fara la carrega del 4791 registres
Aturada la importacio OAI de Recercat a DDD (administracio DDD)
Aturat Job de carregar pdf's de Recercat (~/bin/monday.sh)

Shell: ~/bin/fix65Xrecercat.sh

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions #7

Cristina i Javier,

jo crec que la primera part ha anat bé, ex:

I, a més, els ha completat tots. De moment, ja he canviat el script de conversió perquè, a partir d'ara, els dc.subject vagin al 653 i el dc.subject.other a 650, i l'he tornat a preparar perquè s'executi cada dilluns de matinada.

Cristina, ara falta reactivar el client OAI (via web del DDD) perquè els torni a recollir.

Javier, a partir d'ara hem de preparar el programa per la conversió dels subcamps (--) de les 650 a $x, $y i $z.

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions #8

Ja he tornat a activar el client OAI (via web del DDD) - 'weekly'

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions #9

El programa de fer les subdivisons x,y,z ja esta fet (fix6XXxyz.py). Ho hem provat amb 10 registres i funciona bé:

Les subdivisions que no apareixen a cap altre registre les hem deixades amb ' -- '
Falta en vis-i-plau per posar-ho amb el cron

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys Accions #10

Bon dia, moltes gràcies per la vostra feina.

Ara tenim un problema els registres de la XREAP (http://www.recercat.cat/handle/2072/12898) que provenen de la UB i que tenen totes les matèries com a 650. Són 144 i s'han de repassar a ma, un a un per poder discriminar el que són les paraules clau.

També ens agradaria fer una repassada per sobre a la pàgina de matèries per poder detectar casos conflictius, per exemple un sol guió o un punt...
1 Administració pública - Arxius - Catalunya
1 Administració pública. Govern. Assumptes militars

Quan acabem aquesta feina us avisem per a que comenceu amb els canvis de guionets.

No patiu, ho farem una mica per sobre perquè el millor serà que busquem els -- quan vosaltres acabeu el màxim de deteccions automàtiques.

A tto això entenem que quan hi hagi noves càrregues o registres modificats de recercat no perdrem la feina, oi?

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys Accions #11

  • Assignat a ha canviat de Javier Planella a Eulàlia Serre

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions #12

  • Assignat a ha canviat de Eulàlia Serre a Ferran Jorba

Respecte al repàs de les matèries del XREAP l'Eulàlia ja ha acabat.

En la revisió general veig que en alguns casos hi ha matèries que porten un punt al final. Potser es podria fer una neteja de punts '.'. Penso que els únics que estan bé són a.C., S. (per als segles). 2.0 i etc. jo no n'he vist cap més de rellevant.

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #13

  • Estat ha canviat de En curs a Tancada

S'està fent correctament.

Accions

També disponible a: PDF Atom