Tasca #3841: Corregir les etiquetes de matèries de Recercat - DDD - Gestor de projectes - Servei de Biblioteques de la UAB

Accions

Copiar enllaç

Tasca #3841

tancat

FJ FJ

Corregir les etiquetes de matèries de Recercat

Tasca #3841: Corregir les etiquetes de matèries de Recercat

Afegit per Ferran Jorba fa aproximadament 10 anys. Actualitzat fa més de 8 anys.

Estat:

Tancada

Prioritat:

Normal

Assignat a:

Ferran Jorba

Categoria:

Gestió de la col·lecció

Temàtica prevista:

Accions de milllora de la qualitat

Inici:

02-02-2016

Data de venciment:

Paraula clau:

Descripció

Els registres que carreguem de Recercat via via OAI tenen les matèries malament en diferents aspectes, i cal corregir-les. Agafem els següent registre com a exemple:

http://www.recercat.cat/handle/2072/250911?show=full

En primer lloc, hi ha un malentès entre etiquetes DC qualificades que hauria d'anar a 650 (llista d'encapçalament de matèries) i les que haurien d'anar a la 653 (paraula clau). Fins ara, i de manera equivocada, estàvem fent aquesta equivalència:

dc.subject -> 650
dc.subject.other -> 653
dc.subject.udc -> 080

Les dues primeres s'han de bescanviar, és a dir, dc.subject serà 653 i dc.subject.other 650.

En segon lloc, caldria passar a subcamps Marc21 correctes enlloc dels guionets dobles. És a dir, haurien de canviar-se per $x, $y o $z.

Com saber quin ha de ser? Proposo la següent solució. A partir de les matèries 600, 610, 611 i 650 que ja tinguem al DDD, s'agafen tots els subcamps i se'n fa una llista dels que són $x, els que són $y i els que són $z. Si un dels subcamps amb -- estan en els de $y o en els de $z, els marquem així i, si no el trobem, va al $x.

Aquest serà un programa que s'executarà cada dia i anirà corregint (millorant) tots els registres que tinguem de Recercat. Així, si hi ha un error d'un subcamp amb $x que ha de ser en $y (o $z), només cal corregir-ho en un sol registre i a partir de l'endemà s'aniran corregint tots els altres.

Hem de decidir bé en quin ordre fem els canvis. Ho hem parlat amb la Cristina i creiem que primer cal provar el programa i fer-ne proves (abans al DDD de proves), i fem un càlcul de quan pot trigar en corregir-ho tot. Mentre fem els canvis en real, parem la recol·lecció de Recercat i canviem les equivalències de les etiquetes al programa. Quan hagi acabat, continuem la recol·lecció i tornem a canviar el programa de correccions perquè ja no canviï les etiquetes, sinó només els subcamps.

Tasques relacionades 1 (0 obertes — 1 tancada)

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#1

Mirar el camp 035: te que tindre "recercat"
un semblant: /bin/fix700e.py
fa una llista de candidats: def get_candidate_recids():
i a partir d'aquesta es treballa

subcamps 650:
$x: forma
$y: geografic
$z: temporal

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#2

Javier, després de pensar-m'ho, crec que és més fàcil fer-ho en dues fases:

un script que intercanviï les etiquetes 650 i 653, i quan estigui, podem fer que els nous ja ho carreguin correctament. Els registres candidats serien aquells que tenen 'recercat' a la 035.
un cop fet això, un d'indepenent, que miri quines etiquetes 650 tenen els dos guions (--) per assignar-li's els subcamps correctes (seguint la lògica que havíem comentat ahir). Els registres candidats serien els que tenen dos guions a la 650 (segons com, no caldria ni mirar si són de Recercat...).

Vist des d'avui, em sembla que barrejar les dues correccions ho embolica massa.

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#3

De fet, el primer script, el que canviï les 650 per 653 (i viceversa) és el més delicat, perquè només es pot passar una vegada, i ha de funcionar a la primera, sense possibilitat de repetir-se. Però hi com que són més de 4800 registres (https://ddd.uab.cat/search?p=recercat), crec que ha de fer un bolcat a fitxer tots d'una i després fer les càrregues en blocs de, p. ex., 500 en 500, el cap de setmana. I s'ha de sincronitzar amb les càrregues setmanals via OAI de Recercat.

No es pot tornar a executar un segon cop perquè si no, tornaria a passar les 650 a 653 i ho tornaria a deixar malament. En canvi, el segon, els registres corregits ja no tenen ambigüetat, perquè ja no tenen el doble guió (--) a la 650. És aquest segon el que es podrà executar cada dia per anar corregint el que ens arribi malament.

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#4

Si sincronitzar les càrregues és massa complicat es poden aturar durant un temps, si les biblioteques estan avisades no passa res. Els materials que ara es carreguen via Recercat són sobretot treballs i s'acumulen als finals dels semestres.

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#5

No, jo no crec que ho sigui, de complicat. De fet, si separem les dues correccions com (ara) proposo jo, tot es simplifica, i en un sol cap de setmana seria possible de bescanviar les 650 amb les 653. És un canvi purament mecànic, fàcil de programar i fàcil de saber que s'ha fet bé.

La correcció de subdivisions és més subtil de fer (però no especialment) i, com que val la pena que estigui fent correccions diàriament, millor programar-lo a part.

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#6

Estat ha canviat de Creada a En curs

Hem deixat la primera part a punt
Dema Divendres aprofitant que es festa fara la carrega del 4791 registres
Aturada la importacio OAI de Recercat a DDD (administracio DDD)
Aturat Job de carregar pdf's de Recercat (~/bin/monday.sh)

Shell: ~/bin/fix65Xrecercat.sh

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#7

Cristina i Javier,

jo crec que la primera part ha anat bé, ex:

I, a més, els ha completat tots. De moment, ja he canviat el script de conversió perquè, a partir d'ara, els dc.subject vagin al 653 i el dc.subject.other a 650, i l'he tornat a preparar perquè s'executi cada dilluns de matinada.

Cristina, ara falta reactivar el client OAI (via web del DDD) perquè els torni a recollir.

Javier, a partir d'ara hem de preparar el programa per la conversió dels subcamps (--) de les 650 a $x, $y i $z.

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#8

Ja he tornat a activar el client OAI (via web del DDD) - 'weekly'

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#9

El programa de fer les subdivisons x,y,z ja esta fet (fix6XXxyz.py). Ho hem provat amb 10 registres i funciona bé:

Les subdivisions que no apareixen a cap altre registre les hem deixades amb ' -- '
Falta en vis-i-plau per posar-ho amb el cron

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys Accions
Copiar enllaç
#10

Bon dia, moltes gràcies per la vostra feina.

Ara tenim un problema els registres de la XREAP (http://www.recercat.cat/handle/2072/12898) que provenen de la UB i que tenen totes les matèries com a 650. Són 144 i s'han de repassar a ma, un a un per poder discriminar el que són les paraules clau.

També ens agradaria fer una repassada per sobre a la pàgina de matèries per poder detectar casos conflictius, per exemple un sol guió o un punt...
1 Administració pública - Arxius - Catalunya
1 Administració pública. Govern. Assumptes militars

Quan acabem aquesta feina us avisem per a que comenceu amb els canvis de guionets.

No patiu, ho farem una mica per sobre perquè el millor serà que busquem els -- quan vosaltres acabeu el màxim de deteccions automàtiques.

A tto això entenem que quan hi hagi noves càrregues o registres modificats de recercat no perdrem la feina, oi?

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys Accions
Copiar enllaç
#11

Assignat a ha canviat de Javier Planella a Eulàlia Serre

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#12

Assignat a ha canviat de Eulàlia Serre a Ferran Jorba

Respecte al repàs de les matèries del XREAP l'Eulàlia ja ha acabat.

En la revisió general veig que en alguns casos hi ha matèries que porten un punt al final. Potser es podria fer una neteja de punts '.'. Penso que els únics que estan bé són a.C., S. (per als segles). 2.0 i etc. jo no n'he vist cap més de rellevant.

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions
Copiar enllaç
#13

Estat ha canviat de En curs a Tancada

S'està fent correctament.

Accions

Copiar enllaç

També disponible a: PDF Atom

Projecte

General

Perfil

DDD

Consultes personalitzades

Tasca #3841

Corregir les etiquetes de matèries de Recercat

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#1

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#2

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#3

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#4

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#5

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#6

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#7

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#8

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#9

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys Accions
Copiar enllaç
#10

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys Accions
Copiar enllaç
#11

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#12

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions
Copiar enllaç
#13

Projecte

General

Perfil

DDD

Consultes personalitzades

Tasca #3841

Corregir les etiquetes de matèries de Recercat

JP Actualitzat per Javier Planella fa aproximadament 10 anys AccionsCopiar enllaç #1

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys AccionsCopiar enllaç #2

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys AccionsCopiar enllaç #3

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys AccionsCopiar enllaç #4

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys AccionsCopiar enllaç #5

JP Actualitzat per Javier Planella fa aproximadament 10 anys AccionsCopiar enllaç #6

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys AccionsCopiar enllaç #7

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys AccionsCopiar enllaç #8

JP Actualitzat per Javier Planella fa aproximadament 10 anys AccionsCopiar enllaç #9

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys AccionsCopiar enllaç #10

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys AccionsCopiar enllaç #11

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys AccionsCopiar enllaç #12

CA Actualitzat per Cristina Azorin fa més de 8 anys AccionsCopiar enllaç #13

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#1

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#2

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#3

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#4

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#5

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#6

FJ Actualitzat per Ferran Jorba fa aproximadament 10 anys Accions
Copiar enllaç
#7

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#8

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions
Copiar enllaç
#9

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys Accions
Copiar enllaç
#10

ES Actualitzat per Eulàlia Serre fa aproximadament 10 anys Accions
Copiar enllaç
#11

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#12

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions
Copiar enllaç
#13