Projecte

General

Perfil

Accions

Tasca #4887

tancat
FJ FJ

Pèrdua d'autors a les etiquetes 700

Tasca #4887: Pèrdua d'autors a les etiquetes 700

Afegit per Ferran Jorba fa aproximadament 8 anys. Actualitzat fa aproximadament 7 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Tecnologia
Inici:
06-02-2018
Data de venciment:
27-09-2018
Paraula clau:

Descripció

Alguna de les operacions que fem, ja sigui via canvis globals o procediments automàtics, fa que es perdin autors a les etiquetes 700.

  • Si és per canvis globals, l'explicació és que el sistema actual, si fem canvis en una etiqueta (p. ex., una 700), sobreescriu totes les 700 dels registres seleccionats i, per tant, en pot eliminar aquelles que no formen part de les correccions.
  • Si és per procediments automàtic, el més probable és que sigui des de que s'afegeixen automàticament els codis Orcid (tasca #4684).

Sigui com sigui, cal:

  • Esbrinar quan passa, i que no passi més
  • Recuperar els valors perduts, ja sigui pel control de versions de registres.txt, o per l'històric de cada registre que guarda Invenio.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #1

  • Paraula clau s'ha establert a JR

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #3

Vigilar també que no s'hagin perdut també codis Orcid degut a les actualitzacions de Recercat, que sobreescriuen els registres i, com que a Recercat no hi ha codis Orcid, es perdrien els del DDD. Cal recuperar-los en el mateix procediment que el d'aquesta tasca, tot i que el problema no sigui exactament el mateix.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #4

Crec que ja tinc la manera de detectar etiquetes 700 (o qualsevol altre, si fos el cas) que s'han perdut. L'algoritme és el següent: a partir del control de versions del fitxer registres.txt, que comença el maig del 2013), per cada registre en la versió antiga, miro quines etiquetes 700 hi havia i quines hi ha ara, i les que no hi són, les marco com a perdudes.

Evidentment, hi ha marge d'afinar-ne el resultat, ja que algunes 700 senzillament s'han enriquit en afegir-li, per exemple, el codi Orcid, però amb aquesta mostra ja veig que es pot recuperar.

Segons la tradició de l'utilitat diff de Unix/Linux, cada registre comença amb tres guions (---) i la data antiga entre parèntesi, la versió antiga va precedida per un signe de menys (-) i la nova per un més (+). La mostra:

https://ddd.uab.cat/qualitat/mostra-etiquetes-700-perdudes.txt

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #5

Actualitzo les mostres, ja més afinades, de pèrdues d'etiquetes 700. Tot indica que es deuen als canvis globals, perquè Invenio, quan corregeix una etiqueta, sobreescriu totes les etiquetes iguals. Són els fitxers mostra-etiquetes-700-perdudes_1.txt i següents de:

https://ddd.uab.cat/qualitat/

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #6

  • Data de venciment ha canviat de 28-02-2018 a 27-09-2018

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #7

Amb la Cristina vam estar avaluant els resultats que havíem obtingut, i la conclusió era que quedava massa feina manual a posteriori.

Però, en tot cas, aquestes proves van servir per aprendre a extreure més suc del control de versions intern d'Invenio, que guarda totes les versions històriques de cadascun dels registres i, sobretot, quin fitxer és el que el modifica. Sabent que tots els canvis globals generen un fitxer que es diu globalchanges, he fet una altra proposta d'algoritme, que és aquesta:

Per a cada registre, extreure'n tot el log de canvis, i si n'hi ha un que prové de canvis globals, extreure'n la versió anterior i posterior. D'aquestes dues versions, comptar quantes etiquetes 700 tenen. Si després del canvi global en té menys, el registre és candidat a ser revisat. Però cal fer una segona prova amb la versió actual. Si torna a tenir el nombre d'etiquetes 700 que havia tingut, no cal fer res, perquè ja està corregit. Si no, és candidat.

L'extracció de tot el log de canvis dels registres l'estic fent, automàticament, des del registre més recent al més antic, i trigarà uns dies. De moment, el resultat dels que tinc és aquest:

https://ddd.uab.cat/qualitat/mostra-etiquetes-700-perdudes_a2018m3d23.txt

Cal eliminar alguns casos, com quan el $a només té una coma [fet!], i d'altres que sortiran. La meva idea és presentar-ho de manera que es puguin prendre decisions fàcilment i marcar registres per restaurar les etiquetes 700 perdudes, sense tocar-hi res més.

CA Actualitzat per Cristina Azorin fa quasi 8 anys Accions #8

  • Assignat a ha canviat de Ferran Jorba a Cristina Azorin

Sembla que tots els canvis que s'hauries de corregir estan en aquest fitxer: https://ddd.uab.cat/qualitat/mostra-etiquetes-700-perdudes.txt

Arreglem uns quants i veiem si el llistat s'arregla i es genera cada dia (o cada quant?)

CA Actualitzat per Cristina Azorin fa quasi 8 anys Accions #9

  • Estat ha canviat de Creada a En curs
  • Assignat a ha canviat de Cristina Azorin a Ferran Jorba

Instruccions per a treballar amb el llistat de 700 perdudes:

  • en alguns casos les etiquetes eliminades eren autors duplicats al registre. En Ferran diu que encara que els torni a posar, s'eliminaran automàticament perquè té un programa que elimina les etiquetes duplicades. caldria comprovar-ho, exemples:
https://ddd.uab.cat/record/2126: 2014.07.17:09:37:26 [2 etiquetes 700] canvis globals 2015.01.07:11:59:02 -> [1 etiquetes 700]
~700 1  $a Adams, Tony $u RMIT (Melbourne, Austràlia)
~700 1_ $a Adams, Tony $u RMIT (Melbourne, Austràlia)
-700 1  $a Adams, Tony $u RMIT (Melbourne, Austràlia)

https://ddd.uab.cat/record/2111: 2014.07.17:09:37:26 [2 etiquetes 700] canvis globals 2015.01.07:11:59:02 -> [1 etiquetes 700]
~700 1  $a Picken, Robert
~700 1_ $a Picken, Robert
-700 1  $a Picken, Robert

https://ddd.uab.cat/record/2134: 2014.07.17:09:37:25 [4 etiquetes 700] canvis globals 2015.01.07:11:59:02 -> [2 etiquetes 700]
~700 1  $a Denters, Bas
~700 1_ $a Denters, Bas
~700 1  $a Goedegebuure, Leo
~700 1_ $a Goedegebuure, Leo
-700 1  $a Denters, Bas
-700 1  $a Goedegebuure, Leo
  • En aquest cas cal vigilar autors que estaven duplicats i es van corregir amb l'afiliació. No han de sortir repetits:
https://ddd.uab.cat/record/80023: 2012.03.24:05:16:28 [16 etiquetes 700] canvis globals 2012.05.18:09:42:24 -> [8 etiquetes 700]
~700    $a Lloret, A.
~700 1_ $a Lloret Roca, Albert $u Universitat Autònoma de Barcelona. Hospital Clínic Veterinari
~700    $a Pastor, J.
~700 1_ $0 0000-0003-1702-9531 $a Pastor Milán, Josep $u Universitat Autònoma de Barcelona. Departament de Medicina i Cirurgia Animals
~700    $a Durall Rivas, Ignacio
~700 1_ $a Durall Rivas, Ignacio $u Universitat Autònoma de Barcelona. Departament de Medicina i Cirurgia Animals
~700    $a Calvo, J.
~700 1_ $a Calvo, J. $u Clínica Veterinaria Sant Jordi
~700    $a Seral, A.
~700 1_ $a Seral, A. $u Radioterapia Corachan
~700    $a Luguera, E.
~700 1_ $a Luguera, E. $u Radioterapia Corachan
~700    $a Caralt, M.
~700 1_ $a Caralt, M. $u Radioterapia Corachan
~700    $a Craven-Bartle, J.
~700 1_ $a Craven-Bartle, J. $u Radioterapia Corachan
-700    $a Lloret, A.
-700    $a Pastor, J.
-700    $a Durall Rivas, Ignacio
-700    $a Calvo, J.
-700    $a Seral, A.
-700    $a Luguera, E.
-700    $a Caralt, M.
-700    $a Craven-Bartle, J.
  • Si l'etiqueta 599 __ conté $a ressenya no revertirem els canvis perquè es va treballar per dividir els pdf de les ressenyes.
  • Si hi ha un signe de +, no fer res:
    https://ddd.uab.cat/record/80238: 2012.03.24:05:16:27 [12 etiquetes 700] canvis globals 2012.05.18:09:42:24 -> [6 etiquetes 700]
    ~700    $a Patricio Peñalver $u Universidad de Sevilla. Departamento de Ecología y Biología Celular
    ~700 __ $a Patricio Peñalver $u Universidad de Sevilla. Departamento de Ecología y Biología Celular
    ~700    $a Juan, Melchor $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    ~700 __ $a Juan, Melchor $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    ~700    $a Fuentes, Francisca $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    ~700 __ $a Fuentes, Francisca $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    ~700    $a Gallego, Irene $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    ~700 __ $a Gallego, Irene $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    ~700    $a Toja, Julia $u  $u Universidad de Sevilla. Departamento de Ecología y Biología Celular
    ~700 __ $a Toja, Julia $u Universidad de Sevilla. Departamento de Ecología y Biología Celular
    -700    $a Jesús Casas $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    -700    $a Patricio Peñalver $u Universidad de Sevilla. Departamento de Ecología y Biología Celular
    -700    $a Jesús Casas $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    -700    $a Juan, Melchor $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    -700    $a Fuentes, Francisca $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    -700    $a Gallego, Irene $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    -700    $a Toja, Julia $u  $u Universidad de Sevilla. Departamento de Ecología y Biología Celular
    +700 __ $a Casas, Jesús $u Universidad de Almería. Departamento de Biología Vegetal y Ecología
    
    https://ddd.uab.cat/record/80229: 2012.03.24:05:16:28 [6 etiquetes 700] canvis globals 2012.05.18:09:42:24 -> [3 etiquetes 700]
    -700    $a Sandrine Angélibert
    -700    $a Véronique Rosset
    -700    $a Beat Oertli
    -700    $a Sandrine Angélibert
    -700    $a Véronique Rosset
    -700    $a Beat Oertli
    +700 __ $a Angélibert, Sandrine $u University of Applied Sciences Western Switzerland (Suïssa)
    +700 __ $a Rosset, Véronique $u University of Applied Sciences Western Switzerland (Suïssa)
    +700 __ $a Oertli, Beat $u University of Applied Sciences Western Switzerland (Suïssa)
    
    https://ddd.uab.cat/record/78732: 2012.03.24:06:09:27 [4 etiquetes 700] canvis globals 2012.05.18:11:01:19 -> [2 etiquetes 700]
    ~700    $a Boix, Rafael $e Professor d’Estructura Econòmica $u Universitat de València i Institut d'Estudis Regionals i Metropolitans de Barcelona
    ~700 __ $0 0000-0003-0971-3464 $a Boix Domenech, Rafael $u Institut d'Estudis Regionals i Metropolitans de Barcelona
    -700    $a Galleto, Vittorio $e Cap de l’Àrea d’Economia i Territori $u Institut d'Estudis Regionals i Metropolitans de Barcelona
    -700    $a Boix, Rafael $e Professor d’Estructura Econòmica $u Universitat de València i Institut d'Estudis Regionals i Metropolitans de Barcelona
    -700    $a Galleto, Vittorio $e Cap de l’Àrea d’Economia i Territori $u Institut d'Estudis Regionals i Metropolitans de Barcelona
    +700 __ $a Galletto, Vittorio, $d 1971- $u Institut d'Estudis Regionals i Metropolitans de Barcelona
    

En tota la resta de casos es pot tornar a incorporar les etiquetes 700 eliminades. En total seran 3.784 registres.

FJ Actualitzat per Ferran Jorba fa quasi 8 anys Accions #10

Em sembla que ja està tot a punt. Finalment són 2.940 registres que no tenen ressenya al 599 $a, i es tracta de 7.330 etiquetes 700 noves, és a dir, que el $a no existia ja en el registre. Un cop més: es tracta de recuperar etiquetes 700 desaparegudes just després i exclusivament després d'haver fet un canvi global. En cap altre cas.

Abans de carregar-lo, total o parcialment, val la pena repassar el fitxers:

CA Actualitzat per Cristina Azorin fa quasi 8 anys Accions #11

Ferran, he fet una repassada, hi ha una opció que no havíem tingut en compte. Quan una 700 es va passar a 710 i si la tornes a carregar es duplicaria, o quan la 700 inclou una entitat que en realitat és la filiació, que tampoc no cal carregar. Exemples:

<record>
<controlfield tag="001">140415</controlfield>
<datafield tag="700" ind1="1" ind2=" ">
<subfield code="a">Universitat Autònoma de Barcelona. Facultat de Veterinària,</subfield><subfield code="e">dir.</subfield>
</datafield>
</record>

<record>
<controlfield tag="001">67560</controlfield>
<datafield tag="700" ind1=" " ind2=" ">
<subfield code="a">Universitat Autònoma de Barcelona. Departament de Psicologia Social.</subfield>
</datafield>
</record>

<record>
<controlfield tag="001">65896</controlfield>
<datafield tag="700" ind1=" " ind2=" ">
<subfield code="a">Universitat Autònoma de Barcelona. Departament de Geografia</subfield>
</datafield>
</record>

FJ Actualitzat per Ferran Jorba fa quasi 8 anys Accions #12

Cristina Azorin va escriure:

Ferran, he fet una repassada, hi ha una opció que no havíem tingut en compte. Quan una 700 es va passar a 710 i si la tornes a carregar es duplicaria, o quan la 700 inclou una entitat que en realitat és la filiació, que tampoc no cal carregar. Exemples:

Em sembla que ja ho he solucionat, i he aprofitat per solucionar un altre cas que se m'havia passat (i estava apuntat aquí a la tasca), que era que en les 700 eliminades n'hi havia de respetides.

El que fa ara és que, abans d'afegir una 700, a més de mirar que el $a no existís ja en una 700, mira també que no existeixi en una 700 $u i en una 710, i que no estigui en les que s'acaben d'afegir. Com a cas extra, he fet també que no se n'afegeixi cap que comenci per 'Universitat Autònoma de Barcelona', perquè hi havia diferents casos de facultats que s'hi colaven.

El fitxer vàlid, l'actual, continua essent https://ddd.uab.cat/qualitat/etiquetes-700-recuperades.txt

Les diferències entre el que feia ahir (https://ddd.uab.cat/qualitat/etiquetes-700-recuperades.txt.0) i el que fa ara es poden veure en color a https://ddd.uab.cat/qualitat/etiquetes-700-recuperades.diff.html

Ara són 2.936 registres i 7.214 etiquetes 700 recuperades.

CA Actualitzat per Cristina Azorin fa quasi 8 anys Accions #13

Hem trobat amb la Teresa Santos uns altres exemples de registres que no s'haurien de carregar en el primer llistat:

Aquests casos ja estan corregits amb les darreres modificacions que has fet i no es carregarien si seguim el llistat https://ddd.uab.cat/qualitat/etiquetes-700-recuperades.diff.html

FJ Actualitzat per Ferran Jorba fa quasi 8 anys Accions #14

Cristina Azorin va escriure:

Hem trobat amb la Teresa Santos uns altres exemples de registres que no s'haurien de carregar en el primer llistat:

Aquest cas és francament difícil que el programa el pugui detectar. Crec que és més fàcil d'eliminar-lo a posteriori. De fet, ja consta en aquesta tasca com perquè no se'ns oblidi.

Aha! Perquè el Pompeu està com a 100, i fins ara jo només comptava amb les 700! Ara ja contempla que abans d'afegir-lo no estigui tampoc a la 100 i el Pompeu ja no surt a https://ddd.uab.cat/qualitat/etiquetes-700-recuperades.txt.

Aquests casos ja estan corregits amb les darreres modificacions que has fet i no es carregarien si seguim el llistat https://ddd.uab.cat/qualitat/etiquetes-700-recuperades.diff.html

Acabo d'actualitzar el fitxer.

FJ Actualitzat per Ferran Jorba fa quasi 8 anys Accions #15

Ho hem estat repassant amb la Cristina i la Teresa i creiem que ja es poden corregir (afegir) aquests autors eliminats per canvis globals. Els carregaré demà al matí.

SB21 (Cristina) Recuperats més de 7.000 autors de quasi 3.000 registres del DDD

Al llarg d'uns quants mesos es van fer una sèrie de canvis globals al DDD per afegir el codi ORCID als autors de la UAB. Aquestes operacions van provocar l'eliminació per error d'altres autors del mateix registre. Aquest matí hem restaurat aquests autors però la recerca ha estat costosa i no estem segurs que l'operació no tingui danys col·laterals. Si us plau, si detecteu qualsevol incidència en els autors d'un registre antic comuniqueu-la a la UTP abans d'arreglar-la.

Volem agrair a la Montse Bravo per haver-se'n adonat de la desaparició d'aquests autors en els registres i insistir en que els recuperéssim.

Creiem que tot això no ha de limitar la utilització dels canvis globals al DDD. Aquesta funcionalitat existeix per utilitzar-la i no cal tenir por, podem revertir fins als darrers 10 canvis globals realitzats. El més important és comprovar que s'hagin fet bé i seguir el manual de La Carpeta per poder vigilar amb quins casos cal fer-los amb el registre complet i en quins només amb les etiquetes que volem modificar. Si teniu cap dubte en el moment de fer-lo sempre podeu consultar-nos abans.

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #16

  • Estat ha canviat de En curs a Tancada
  • Prioritat ha canviat de Urgent a Normal

Tanquem la tasca, s'han tornat a carregar els autors eliminats amb tasques globals seguint els criteris que vam establir en aquesta tasca, ha quedat un conjunt per canviar que anirem repassant quan tinguem temps per comprovar que realment no calia incorporar cap autor.

Per a fer-ho utilitzarem el llistat: https://ddd.uab.cat/qualitat/etiquetes-700-perdudes.txt

Aquest llistat ja no s'actualitza.

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #17

  • Paraula clau s'ha suprimit (JR)
Accions

També disponible a: PDF Atom