Projecte

General

Perfil

Accions

Tasca #5178

tancat
CA FJ

Arreglar llistat DOIs erronis

Tasca #5178: Arreglar llistat DOIs erronis

Afegit per Cristina Azorin fa més de 7 anys. Actualitzat fa aproximadament 7 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Gestió de la col·lecció
Temàtica prevista:
Inici:
06-11-2018
Data de venciment:
21-02-2019
Paraula clau:
JR

Descripció

Ferran, el llistat https://ddd.uab.cat/qualitat/doi2error.tab dona molts dois que en realitat estan bé:

  1. com https://ddd.uab.cat/record/123853 que ja no hauria d'aparèixer al llistat
  2. en altres casos el tema és que el que apareix al DDD és el mateix que està al document o a la web de l'editor com https://ddd.uab.cat/record/178203 , seria millor esborrar-los del registre del DDD???

Finalment un tercer grup serien els dois del Servei de Publicacions, pots parlar amb en marc per passar-li el llistat o per saber què cal que fem amb ells?

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #2

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #3

Respecte al cas 1, no sé què dir-vos; el dia 3 donava error (o això és el que va quedar gravat), i certament avui no. Cada dia en comprova 1000 i a hores d'ara triga més de dues setmanes a repassar-los tots. Evidentment, això anirà a més i, per tant, a pitjor

Potser una possible solució és canviar les freqüències de comprovació. Per exemple, els que estan bé, només comprovar-los un cop al mes, i els que estan malament, un cop a la setmana. Penso que segurament els dois correctes en general no canviaran el seu estat (de correcte a error), però és més probable que els que donen error sí que canviïn (a correcte) o, en tot cas, són els que més us convé que el sistema us avisi del seu estat.

Una altra solució podria ser comprovar-los a diferents hores del dia, com les urls, que es fan durant el dia. Ara, els dois sempre es comproven a la mateixa hora (final del dia) i, per tant, hi ha sistemes que poden estar en manteniment i donin error. Si en comptes de comprovar-ne 1000 cada nit en fem 100 cada hora, la probabilitat que coincideixi en manteniment baixaria molt.

Les dues solucions són compatibles entre sí.

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #4

Respecte al cas 2, diria que cal mirar cada cas. El del registre que poses com a exemple (https://ddd.uab.cat/record/178203) fallen les dues adreces, tant la del doi com la de l'adreça alternativa. Però sí, segurament no fa cap bé a ningú tenir dois erronis al DDD.

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #5

Pel que fa al tercer grup, acabo d'enviar el llistat dels dois que donen error al Servei de Publicacions. A veure què diuen.

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #6

Ferran Jorba va escriure:

Respecte al cas 1, no sé què dir-vos; el dia 3 donava error (o això és el que va quedar gravat), i certament avui no. Cada dia en comprova 1000 i a hores d'ara triga més de dues setmanes a repassar-los tots. Evidentment, això anirà a més i, per tant, a pitjor

Potser una possible solució és canviar les freqüències de comprovació. Per exemple, els que estan bé, només comprovar-los un cop al mes, i els que estan malament, un cop a la setmana. Penso que segurament els dois correctes en general no canviaran el seu estat (de correcte a error), però és més probable que els que donen error sí que canviïn (a correcte) o, en tot cas, són els que més us convé que el sistema us avisi del seu estat.

Aquesta idea em sembla bé. Crec que un cop netegem els DOIs de la UAB podríem repassar els que estiguin al llistat un cop a la setmana, i la resta anar fent com ara de 1000 al dia.

Una altra solució podria ser comprovar-los a diferents hores del dia, com les urls, que es fan durant el dia. Ara, els dois sempre es comproven a la mateixa hora (final del dia) i, per tant, hi ha sistemes que poden estar en manteniment i donin error. Si en comptes de comprovar-ne 1000 cada nit en fem 100 cada hora, la probabilitat que coincideixi en manteniment baixaria molt.

Els DOIs haurien de funcionar SEMPRE i a totes hores (perquè són per a tot el món i quan nosaltres dormim altres es desperten), així que penso que a final del dia ja està bé.

Les dues solucions són compatibles entre sí.

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #7

De moment hi he fet un sol canvi, que és que no tornarà a comprovar els que consta que ja estan bé si no han passat 30 dies.

Com que de dois en tenim ara mateix gairebé 17.000, dels quals prop de 1.100 donen error, però en continuarem comprovant 1.000 cada dia, aquests erronis es comprovaran molt més sovint. No sé calcular si serà un cop a la setmana, però en els propers dies ho podrem verificar.

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #8

  • Data de venciment s'ha establert a 20-12-2018
  • Estat ha canviat de Creada a En curs

En el llistat encara apareixen DOIs que no hi són al DDD, ex. https://ddd.uab.cat/record/174825

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #9

  • Data de venciment ha canviat de 20-12-2018 a 21-02-2019
  • Paraula clau s'ha suprimit (JR)

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #10

D'aquests llistats (https://ddd.uab.cat/qualitat/doi2error_doi.tab) s'haurien de treure de les comprovacions els registres que estan en revisió. Hi ha alguns que estan a 'No drets' així que sortien sempre al llistat, i hem comprovat que el DOI és correcte, per exemple: https://ddd.uab.cat/record/128101

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #11

Cristina Azorin va escriure:

En el llistat encara apareixen DOIs que no hi són al DDD, ex. https://ddd.uab.cat/record/174825

L'error es repeteix. Per algun motiu no s'esborren de la llista d'errors els dois que han estat esborrat dels registres.

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #12

Crec que ja ho he arreglat. Ara sí que he confirmat que abans de res esborra els dois que ja no tenim al DDD, hi incorpora els nous, i és després quan fa les comprovacions.

No ho tanco fins que ho hàgim comprovat, en uns dies.

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #13

ok, arreglo el primer de la llista a veure què passa dilluns, https://ddd.uab.cat/record/201170

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #14

Cristina, pels que he estat provant entre ahir i avui, me'n trobo que el programa havia trobat que no funcionaven (donaven un error 404) i a mi, a mà, via https://ddd.uab.cat/qualitat/doi2error_data.html, sí que m'han funcionat.

Continuo pensant que seria una mesura de prudència fer el que deia a nota 3: en comptes de comprovar-ne 1000 cada nit, sempre a la mateixa hora, repartir les comprovacions al llarg del dia, com les 856. No faria cap mal i nosaltres ens estalviaríem falsos errors.

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #15

Amb el que jo havia fet la prova s'ha actualitzat el llistat. Si creus que dividir les comprovacions anirà millor endavant.

he vist que hi ha molts de revistes UAB, li diem al Marc?

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #16

Per exemple https://ddd.uab.cat/record/948 dona un error ben estrany

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #17

  • Prioritat ha canviat de Normal a Alta
  • Paraula clau s'ha establert a JR

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #18

Cristina Azorin va escriure:

Per exemple https://ddd.uab.cat/record/948 dona un error ben estrany

Sí, tots els dels OJS del Servei de Publicacions que donen error he vist que és aquest. De fet, ara mateix, seves amb error me'n surten 360. Si et sembla, els hi envio i aprofito per fer-los saber d'aquest missatge.

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #19

sí, molt bé!

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #20

Estic pensant que abans hauria de comprovar que els dois seus (amb prefix 10.5565) que tenim al DDD efectivament els estiguin publicant ells als seus OJS, per no donar-li's informació errònia.

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #21

He fet neteja de mitja dotzena de dois que teníem al DDD i que no consta que ells els exportin via OAI (la majoria, de Publicacions Matemàtiques).

Ja hi he passat al Servei de Publicacions, doncs, un llistat amb el mateix tipus d'error, que afecta a revistes senceres, probablement degut a un tema de configuració informàtica local.

D'altra banda, repassant que la llista estigui bé, he vist que, efectivament, errors que consten a https://ddd.uab.cat/qualitat/doi2error_data.html no ho són; n'hi ha que funcionen perfectament. Cada cop estic més convençut que no podem fer totes les comprovacions a la mateixa hora del dia.

Per tant, proposo, com ja havia sortit en aquesta tasca (nota 3):

  1. Repartir les comprovacions al llarg del dia, com les de les 856.
  2. Canviar les freqüències de comprovació: els que donin error, més sovint (per exemple, un cop al dia, perquè pot ser un error temporal); els que funcionin, menys sovint (per exemple, un cop a la setmana o al mes).

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #22

Per tant, proposo, com ja havia sortit en aquesta tasca (nota 3):

  1. Repartir les comprovacions al llarg del dia, com les de les 856.
  2. Canviar les freqüències de comprovació: els que donin error, més sovint (per exemple, un cop al dia, perquè pot ser un error temporal); els que funcionin, menys sovint (per exemple, un cop a la setmana o al mes).

Fet. La freqüència és la següent: durant el dia, de 8 del matí a 9 de la nit,

  1. Cada 10 minuts, agafa els 10 dois amb error que fa més temps que es van comprovar i mira si ja estan bé. Com que n'hi ha pocs, es comproven sovint (alguns dies). Per als dois que donin error la darrera vegada i el tornen a donar, esborro els valors de citations.
  2. Cada 10 minuts, agafa els 10 dois sense error que fa més temps que es van comprovar i mira si encara estan bé. Com que la majoria estan bé, es comproven menys sovint (algunes setmanes).
  3. Cada 10 minuts, agafa els 10 dois més antics sense error i comprova les citacions a Altmetric, Scopus i WoS i es desen els valors a la base de dades.

A la nit sincronitza (afegeix o esborra, segons toqui) els dois del DDD amb la base de dades de dois. La que mana, sempre, és la del DDD, i són els dois dels registres Marc els que manen. Si s'esborren o es corregeixen del registres, l'endemà s'esborrarà o corregirà de la base de dades de dois; si se n'afegeix un de nou, s'afegirà a la base de dades de dois, tant de comprovacions com de citacions.

Espero que ara ja no en surtin d'obsoletes, però no tancaré la tasca fins dilluns, per donar-li temps al nou sistema d'haver fer un cicle sencer.

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #23

Ara que en queden menys, he pogut conèixer millor alguns dels casos que no es resolien bé:

https://ddd.uab.cat/qualitat/doi2error_data.html

  1. Si la connexió es fa sense identificar el client, per exemple, amb el nom genèric python-requests, alguns webs (per exemple oup.com) donen error 404. Li he posat el nom doi_checker/1.0.
  2. En alguns casos hi ha error de certificat https; he fet que si falla, ignori el certificat.
  3. En altres casos, dóna un error 400 (Bad request), que quan ho consultem amb navegador, no sembla passar, i el redireccionament funciona bé. Estic mirant de resoldre'ls.

Sigui com sigui, en queden prou pocs amb error (pocs més de 360) que s'acabaran comprovant cada dia. També he fet que no més d'un cop al dia, al menys. Els que estan bé es tornaran a comprovar cada tres setmanes, aproximadament.

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #24

Ferran Jorba va escriure:

Sigui com sigui, en queden prou pocs amb error (pocs més de 360) que s'acabaran comprovant cada dia. També he fet que no més d'un cop al dia, al menys. Els que estan bé es tornaran a comprovar cada tres setmanes, aproximadament.

Per tant, com que tots els dois amb error, a partir d'ara, tindran la mateixa data de comprovació (la del dia anterior), segurament no té sentit tenir dos llistats, i proposo passar a tenir-ne un de sol. Proposo que sigui ordenat per doi, perquè així podem veure junts els del mateix editor.

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #25

Accepto la proposta ;-)

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #26

  • Estat ha canviat de En curs a Tancada

Cristina Azorin va escriure:

Accepto la proposta ;-)

Perfecte, ara hi haurà un sol llistat, en versions fitxer tabulat i html:

FJ Actualitzat per Ferran Jorba fa aproximadament 7 anys Accions #27

Cristina Azorin va escriure:

Accepto la proposta ;-)

Perfecte, ara hi haurà un sol llistat, en versions fitxer tabulat i html:

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #28

  • Prioritat ha canviat de Alta a Normal
Accions

També disponible a: PDF Atom