Tasca #5246
tancatAccions de millora identificador de registres (idregistres)
Descripció
1. Reactivar la detecció per md5, que ara mateix està desactivada.
2. Reactivar la detecció per cerca aproximada, que ara mateix està desactivada.
Tasques relacionades 5 (0 obertes — 5 tancades)
CA Actualitzat per Cristina Azorin fa aproximadament 7 anys
- S'ha afegit relacionat amb Tasca #4476: Programa per identificar registres externs al DDD
FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys
- Estat ha canviat de Creada a Tancada
Les dues estan ja activades des del desembre; segurament només us ho vaig avisar per correu, mea culpa de no haver-ho fet constar en una tasca.
CA Actualitzat per Cristina Azorin fa aproximadament 7 anys
- Paraula clau s'ha suprimit (
JR)
FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys
- Data de venciment s'ha establert a 23-05-2019
- Estat ha canviat de Tancada a En curs
- Prioritat ha canviat de Normal a Alta
- Paraula clau s'ha establert a JR
A l'apartat 3 (Registres possiblement duplicats), cal fer el que diu la nota 10 de la tasca #5172:
Efectivament, amb la Cristina hem acordat que com que la correcció haurà de ser registre a registre, poden passar dues coses: la correcció d'un registre (p. ex., un doi erroni) farà que ja no surti més, o bé si l'etiqueta s'ha de mantenir, el programa haurà de permetre marcar aquell registre perquè no surti més a la llista; per ignorar-lo.
FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys
- S'ha afegit relacionat amb Tasca #5172: Identificadors 024 duplicats, nou llistat de qualitat
FJ Actualitzat per Ferran Jorba fa més de 6 anys
Hem fet l'exercici amb la Cristina de mirar quins casos són els de l'apartat 3 de https://ddd.uab.cat/idregistres.py i hem arribat a la conclusió que no es poden arreglar automàticament per programa. Cada cas és diferent: o bé hi ha copiar-i-enganxar, o bé modificacions automàtiques per programa, etc. En altres casos, el criteri del DDD pots ser diferent del del servidor remot (p. ex, que un article en dues llengues estigui en un sol registre o en dos).
Per tant, la correcció serà manual i hi haurà d'haver un botó per donar per bona la situació actual i que no surti més en el llistat.
CA Actualitzat per Cristina Azorin fa més de 6 anys
- S'ha afegit relacionat amb Tasca #5281: Eliminar els registres correctes del DDD de la detecció d'AREs duplicats
CA Actualitzat per Cristina Azorin fa més de 6 anys
- Data de venciment ha canviat de 23-05-2019 a 19-12-2019
CA Actualitzat per Cristina Azorin fa més de 6 anys
Repassant els idregistres hem vist que els identificadors de scopus duplicats amagaven un canvi globals que va eliminar per error dois dels registres d'articles. En Ferran fa una tasca nova que enllacem amb aquesta #5517.
CA Actualitzat per Cristina Azorin fa més de 6 anys
- S'ha afegit relacionat amb Tasca #5517: Comprovar i, probablement revertir, els dois eliminats el 2018-05-19 05:23
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
Hem confirmat amb la Cristina que, al menys en el cas dels altmetric_id, un nombre important són registres consecutius.
L'explicació completa és: per visualitzar el nombre de citacions, cosa que fem a partir del doi, vaig crear una base de dades interna (~/var/lib/dois/dois.db) on, per a cada base de dades remota (scopus, wos i altmetric), hi emmagatzemo el nombre de citacions i l'identificador que té aquest registre a la base de dades remote. En algun moment vaig considerar, i valorar amb la Cristina, que aquest identificador remot seria més útil que fos visible, i el lloc més evident és com a 035. Aquest procediment d'afegir 035 a partir d'aquesta base de dades es diu add035dois.sh i s'executa cada nit.
Com que el que passa doncs és que és la 035 la que està equivocada, i es va afegir per programa, cal que sigui un programa automàtic que ho reverteixi. I confirmar que no torni a passar, que fos un error puntual.
ddd@mompou:~/var/lib/dois$ sqlite3 dois.db
SQLite version 3.27.2 2019-02-25 16:06:06
Enter ".help" for usage hints.
sqlite> .schema
CREATE TABLE doi_status_codes (
doi text PRIMARY KEY,
last_checked text,
recid int,
status_code int
);
CREATE TABLE doi_citations (
doi text,
last_checked text,
remote_database text,
remote_id text,
remote_citations int,
PRIMARY KEY (doi, remote_database)
);
CREATE INDEX doi_idx ON doi_citations(doi);
sqlite> .mode line
sqlite> select * from doi_status_codes where doi='10.1007/s00294-016-0634-y';
doi = 10.1007/s00294-016-0634-y
last_checked = 2020.01.04
recid = 185943
status_code = 200
sqlite> select * from doi_citations where doi='10.1007/s00294-016-0634-y';
doi = 10.1007/s00294-016-0634-y
last_checked = 2020.01.04
remote_database = altmetric
remote_id = 10308584
remote_citations = 15
doi = 10.1007/s00294-016-0634-y
last_checked = 2020.01.04
remote_database = scopus
remote_id = 84982816436
remote_citations = 17
doi = 10.1007/s00294-016-0634-y
last_checked = 2020.01.04
remote_database = wos
remote_id = 000399176400012
remote_citations = 17
sqlite>
CA Actualitzat per Cristina Azorin fa aproximadament 6 anys
- Data de venciment ha canviat de 19-12-2019 a 09-11-2020
- Paraula clau ha canviat de JR a JR NCR
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
Acabo d'afegir un cercador bàsic a l'idregistres. Permet fer cerques per la majoria d'identificadors (OAI, DOI, títol (exacte), md5, etc) dels registres remots i locals.
L'objectiu principal és per per fàcilment accessible quins valors hem recollit via OAI, i saber, per exemple, si un determinat camp (llengua, secció de revista, orcid, afiliació) existeix en el que hem recollit, i on. La interfície web és ara mateix molt primitiva, perquè el mateix que surt per pantalla. Ja la millorarem perquè permeti navegar en els resultats.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
Acabo de publicar la primera fase de la millora del cercador per consultar els registres recol·lectats i els formats originals. He afegit també enllaços (marcats com a [+]) des dels identificadors OAI per saltar fàcilment d'un lloc a l'altre.
CA Actualitzat per Cristina Azorin fa quasi 6 anys
- S'ha afegit relacionat amb Tasca #5682: Neteja dels identificadors de Scopus que el programa detecta duplicats (idregistres)
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Estat ha canviat de En curs a Tancada
- Prioritat ha canviat de Alta a Normal
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Paraula clau s'ha suprimit (
JR NCR)