Projecte

General

Perfil

Accions

Tasca #5246

tancat
CA FJ

Accions de millora identificador de registres (idregistres)

Tasca #5246: Accions de millora identificador de registres (idregistres)

Afegit per Cristina Azorin fa aproximadament 7 anys. Actualitzat fa més de 5 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Tecnologia
Inici:
10-01-2019
Data de venciment:
09-11-2020
Paraula clau:

Descripció

1. Reactivar la detecció per md5, que ara mateix està desactivada.
2. Reactivar la detecció per cerca aproximada, que ara mateix està desactivada.


Tasques relacionades 5 (0 obertes5 tancades)

relacionat amb DDD - Tasca #4476: Programa per identificar registres externs al DDDTancadaFerran Jorba07-03-201713-12-2018Accions
relacionat amb DDD - Tasca #5172: Identificadors 024 duplicats, nou llistat de qualitatTancadaFerran Jorba31-10-201830-04-2019Accions
relacionat amb DDD - Tasca #5281: Eliminar els registres correctes del DDD de la detecció d'AREs duplicatsTancadaFerran Jorba08-02-201924-10-2019Accions
relacionat amb DDD - Tasca #5517: Comprovar i, probablement revertir, els dois eliminats el 2018-05-19 05:23TancadaFerran Jorba07-11-2019Accions
relacionat amb DDD - Tasca #5682: Neteja dels identificadors de Scopus que el programa detecta duplicats (idregistres)TancadaFerran Jorba27-03-2020Accions

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #1

  • S'ha afegit relacionat amb Tasca #4476: Programa per identificar registres externs al DDD

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #2

  • Estat ha canviat de Creada a Tancada

Les dues estan ja activades des del desembre; segurament només us ho vaig avisar per correu, mea culpa de no haver-ho fet constar en una tasca.

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #3

  • Paraula clau s'ha suprimit (JR)

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #4

  • Data de venciment s'ha establert a 23-05-2019
  • Estat ha canviat de Tancada a En curs
  • Prioritat ha canviat de Normal a Alta
  • Paraula clau s'ha establert a JR

A l'apartat 3 (Registres possiblement duplicats), cal fer el que diu la nota 10 de la tasca #5172:

Efectivament, amb la Cristina hem acordat que com que la correcció haurà de ser registre a registre, poden passar dues coses: la correcció d'un registre (p. ex., un doi erroni) farà que ja no surti més, o bé si l'etiqueta s'ha de mantenir, el programa haurà de permetre marcar aquell registre perquè no surti més a la llista; per ignorar-lo.

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #5

  • S'ha afegit relacionat amb Tasca #5172: Identificadors 024 duplicats, nou llistat de qualitat

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #6

Hem fet l'exercici amb la Cristina de mirar quins casos són els de l'apartat 3 de https://ddd.uab.cat/idregistres.py i hem arribat a la conclusió que no es poden arreglar automàticament per programa. Cada cas és diferent: o bé hi ha copiar-i-enganxar, o bé modificacions automàtiques per programa, etc. En altres casos, el criteri del DDD pots ser diferent del del servidor remot (p. ex, que un article en dues llengues estigui en un sol registre o en dos).

Per tant, la correcció serà manual i hi haurà d'haver un botó per donar per bona la situació actual i que no surti més en el llistat.

CA Actualitzat per Cristina Azorin fa més de 6 anys Accions #7

  • S'ha afegit relacionat amb Tasca #5281: Eliminar els registres correctes del DDD de la detecció d'AREs duplicats

CA Actualitzat per Cristina Azorin fa més de 6 anys Accions #9

  • Data de venciment ha canviat de 23-05-2019 a 19-12-2019

CA Actualitzat per Cristina Azorin fa més de 6 anys Accions #10

Repassant els idregistres hem vist que els identificadors de scopus duplicats amagaven un canvi globals que va eliminar per error dois dels registres d'articles. En Ferran fa una tasca nova que enllacem amb aquesta #5517.

CA Actualitzat per Cristina Azorin fa més de 6 anys Accions #11

  • S'ha afegit relacionat amb Tasca #5517: Comprovar i, probablement revertir, els dois eliminats el 2018-05-19 05:23

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #12

Hem confirmat amb la Cristina que, al menys en el cas dels altmetric_id, un nombre important són registres consecutius.

L'explicació completa és: per visualitzar el nombre de citacions, cosa que fem a partir del doi, vaig crear una base de dades interna (~/var/lib/dois/dois.db) on, per a cada base de dades remota (scopus, wos i altmetric), hi emmagatzemo el nombre de citacions i l'identificador que té aquest registre a la base de dades remote. En algun moment vaig considerar, i valorar amb la Cristina, que aquest identificador remot seria més útil que fos visible, i el lloc més evident és com a 035. Aquest procediment d'afegir 035 a partir d'aquesta base de dades es diu add035dois.sh i s'executa cada nit.

Com que el que passa doncs és que és la 035 la que està equivocada, i es va afegir per programa, cal que sigui un programa automàtic que ho reverteixi. I confirmar que no torni a passar, que fos un error puntual.

ddd@mompou:~/var/lib/dois$ sqlite3 dois.db 
SQLite version 3.27.2 2019-02-25 16:06:06
Enter ".help" for usage hints.
sqlite> .schema
CREATE TABLE doi_status_codes (
    doi              text PRIMARY KEY,
    last_checked     text,
    recid            int,
    status_code      int
    );
CREATE TABLE doi_citations (
    doi              text,
    last_checked     text,
    remote_database  text,
    remote_id        text,
    remote_citations int,
    PRIMARY KEY      (doi, remote_database)
    );
CREATE INDEX doi_idx ON doi_citations(doi);
sqlite> .mode line 
sqlite> select * from doi_status_codes where doi='10.1007/s00294-016-0634-y';
         doi = 10.1007/s00294-016-0634-y
last_checked = 2020.01.04
       recid = 185943
 status_code = 200
sqlite> select * from doi_citations where doi='10.1007/s00294-016-0634-y';
             doi = 10.1007/s00294-016-0634-y
    last_checked = 2020.01.04
 remote_database = altmetric
       remote_id = 10308584
remote_citations = 15

             doi = 10.1007/s00294-016-0634-y
    last_checked = 2020.01.04
 remote_database = scopus
       remote_id = 84982816436
remote_citations = 17

             doi = 10.1007/s00294-016-0634-y
    last_checked = 2020.01.04
 remote_database = wos
       remote_id = 000399176400012
remote_citations = 17
sqlite> 

CA Actualitzat per Cristina Azorin fa aproximadament 6 anys Accions #13

  • Data de venciment ha canviat de 19-12-2019 a 09-11-2020
  • Paraula clau ha canviat de JR a JR NCR

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #14

Acabo d'afegir un cercador bàsic a l'idregistres. Permet fer cerques per la majoria d'identificadors (OAI, DOI, títol (exacte), md5, etc) dels registres remots i locals.

L'objectiu principal és per per fàcilment accessible quins valors hem recollit via OAI, i saber, per exemple, si un determinat camp (llengua, secció de revista, orcid, afiliació) existeix en el que hem recollit, i on. La interfície web és ara mateix molt primitiva, perquè el mateix que surt per pantalla. Ja la millorarem perquè permeti navegar en els resultats.

FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys Accions #15

Acabo de publicar la primera fase de la millora del cercador per consultar els registres recol·lectats i els formats originals. He afegit també enllaços (marcats com a [+]) des dels identificadors OAI per saltar fàcilment d'un lloc a l'altre.

https://ddd.uab.cat/idregistres.py

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #16

  • S'ha afegit relacionat amb Tasca #5682: Neteja dels identificadors de Scopus que el programa detecta duplicats (idregistres)

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #17

  • Estat ha canviat de En curs a Tancada
  • Prioritat ha canviat de Alta a Normal

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #18

  • Paraula clau s'ha suprimit (JR NCR)
Accions

També disponible a: PDF Atom