Tasca #5434
tancatPrograma idautoritats.py per detectar duplicats d'entrades d'autoritat, afegir Orcids i normalitzar les formes dels noms
Descripció
Degut a que al DDD els registres ens arriben de fonts diverses (formularis, OAI, càrregues del catàleg, PubMed, Scopus, etc), ens trobem que els mateixos autors ens arriben de maneres diferents.
Donat que Invenio no té pròpiament registres d'autoritat, calen eines per detectar i normalitzar aquestes entrades. També ha de servir per aparellar els autors amb els codis Orcid.
Aquesta tasca n'unifica unes quantes d'anteriors i s'inspira amb la feina que hem fet per idregistres (#4476).
Tasques relacionades 13 (0 obertes — 13 tancades)
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- S'ha afegit relacionat amb Tasca #4476: Programa per identificar registres externs al DDD
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- S'ha afegit relacionat amb Tasca #4684: Ampliar l'identificador Orcid a autors que no tinguin NIU
FJ Actualitzat per Ferran Jorba fa més de 6 anys
En una primera fase, he creat una sèrie de llistats (author-orcid, orcid-author, autors similars) per tenir una idea del volum i del tipus de discrepàncies. Estan explicats a la tasca #5416.
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- S'ha afegit relacionat amb Tasca #3079: Comprovar que el lligam entre ORCID i nius s'estigui fent bé al DDD
CA Actualitzat per Cristina Azorin fa més de 6 anys
- Data de venciment s'ha establert a 19-12-2019
- Categoria s'ha establert a Suport a docència i recerca
- Estat ha canviat de Creada a En curs
- Paraula clau s'ha establert a JR
FJ Actualitzat per Ferran Jorba fa més de 6 anys
Ja funciona, en proves, el programa https://ddd.uab.cat/idautoritats.py per normalitzar etiquetes d'autors de manera controlada, i que permet unificar formes diferents de noms d'autor ($a), assignar Orcids a registres que de vegades en tenen i d'altres no ($0), i les dates ($d), quan de vegades i són i de vegades no.
Treballant-hi amb l'Isàvena, ens n'hem adonat que faltaria fer el mateix per les formes desenvolupades dels noms ($q, que de vegades ens la trobem en el $a) i segurament l'afiliació ($u) quan sigui qüestió d'unificar formes diferents del mateix nom. En el cas del $u el programa ja ho detecta i en fa llistats (atenció, que és llarg! https://ddd.uab.cat/qualitat/author-affiliation-distinct.html) però encara no permet fer els canvis; no hauria de costar gaire.
Temes que ara mateix no estan resolts:
- Fer el canvis sol·licitats quan el subcamp acaba en puntuació (típicament la coma), que ara matex no els canvia. No els canvia perquè el programa es preocupa de canviar el subcamp quan està escrit exactament de la manera que es vol canviar, per no fer-ne d'equivocats. El tema de la puntuació final està previst, però encara no fa el canvi.
- Quan ja s'hagi canviat el nom anteriorment, proporcionar la informació de quins canvis es van fer i quan. Perquè si al cap d'un temps torna a aparèixer una forma incorrecta del mateix nom, es pugui consultar en pantalla quina decisió es va prendre.
FJ Actualitzat per Ferran Jorba fa més de 6 anys
Després d'haver fet uns canvis interns per adaptar-lo al crexiement actual i a les funcionalitats futures, el programa https://ddd.uab.cat/idautoritats.py ara ja fa:
- Ja hi surt la llista dels Orcids invàlids, no cal anar a https://ddd.uab.cat/qualitat/
- Hi surt (UAB) al costat de l'autor si en algun $u té alguna vinculació amb la UAB. Això ho fa a totes les llistes d'autors o Orcids, i és per facilitar la priorització dels autors de la UAB.
- S'han solucionat les limitacions dels canvis de subcamps si acaben en puntuació, sigui coma o punt (ara ja ho fa bé sempre).
- Si un nom ja ha estat canviat prèviament, surt en pantalla per recordar que ja s'havia canviat i en quin sentit (Vegeu o Useu-lo per), sense haver de tornar fer les comprovacions manualment un altre cop.
CA Actualitzat per Cristina Azorin fa més de 6 anys
Ell programa de validació d'ORCID funciona molt i molt bé, mancaria només l'opció de que permeti eliminar completament del llistat els falsos duplicats.
En el cas dels llistats de ISSN cal ampliar la validació amb la comprovació del digit de validació final(cheksum). que la comprovació dels ISSN de moment només és per la forma 4-4 dígits (o la X final). El càlcul del dígit de control està pendent.
CA Actualitzat per Cristina Azorin fa aproximadament 6 anys
- Data de venciment ha canviat de 19-12-2019 a 23-11-2020
- Paraula clau ha canviat de JR a JR NCR
CA Actualitzat per Cristina Azorin fa quasi 6 anys
- S'ha afegit relacionat amb Tasca #5682: Neteja dels identificadors de Scopus que el programa detecta duplicats (idregistres)
CA Actualitzat per Cristina Azorin fa quasi 6 anys
El dia que et posis a fer el que està pendent potser pots valorar si costaria molt afegir un nou llistat: llistat d’autors UAB que no tenen Orcid al DDD.
CA Actualitzat per Cristina Azorin fa quasi 6 anys
- S'ha afegit relacionat amb Tasca #5701: Revisar i modificar les revistes amb el mateix títol i ISSN diferent al DDD
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
A mesura que estem treient el suc d'aquest programa, veiem que el podríem utilitzar per facilitar altres tasques de normalització, i alhora, queden alguns temes no resolts.
A partir d'ara, i tal com vam acordar amb la Cristina, crearem tasques relacionades per acotar-les més bé.
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
- Tema ha canviat de Programa per detectar duplicats d'entrades d'autoritat, afegir Orcids i normalitzar les formes dels noms a Programa idautoritats.py per detectar duplicats d'entrades d'autoritat, afegir Orcids i normalitzar les formes dels noms
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
- S'ha afegit relacionat amb Tasca #5706: El programa idautoritats.py ha de permetre donar per bons casos que detecta com a duplicats
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
- S'ha afegit relacionat amb Tasca #5707: El programa idautoritats.py ha de permetre unificar formes lleugerament diferents dels mateixos noms
FJ Actualitzat per Ferran Jorba fa quasi 6 anys
- S'ha afegit relacionat amb Tasca #5708: El programa idautoritats.py ha de contemplar autors de totes les col·leccions
CA Actualitzat per Cristina Azorin fa més de 5 anys
- S'ha afegit relacionat amb Tasca #5818: Control d'autoritats al DDD
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Prioritat ha canviat de Normal a Urgent
CA Actualitzat per Cristina Azorin fa més de 5 anys
- S'ha afegit relacionat amb Tasca #5889: Visibilitzar les estadístiques dels canvis de idautoritats
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Data de venciment ha canviat de 23-11-2020 a 31-12-2020
- Prioritat ha canviat de Urgent a Normal
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Estat ha canviat de En curs a Tancada
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Paraula clau s'ha suprimit (
JR NCR)
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys
He arreglat uns casos en els que no es feien les correccions malgrat haver-les seleccionades bé, ja sigui amb el signe = o amb una xifra.
També, des d'avui ja funciona una petició que havíeu formulat sovint: que després d'una correcció el programa tornés a la mateixa selecció des d'on s'havia fet la correcció i no al menú anterior.
FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys
- S'ha afegit relacionat amb Tasca #6343: Programa idautoritats.py: amagar els canvis (Useu-lo per) a la llista d'entrades
FJ Actualitzat per Ferran Jorba fa quasi 5 anys
- S'ha afegit relacionat amb Tasca #6466: Programa idautoritats.py: eliminar els registres de NODRETS
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys
- S'ha afegit relacionat amb Tasca #6771: Problema en la correcció d'autoritats (idautoritats)