Projecte

General

Perfil

Accions

Tasca #5434

tancat
FJ FJ

Programa idautoritats.py per detectar duplicats d'entrades d'autoritat, afegir Orcids i normalitzar les formes dels noms

Tasca #5434: Programa idautoritats.py per detectar duplicats d'entrades d'autoritat, afegir Orcids i normalitzar les formes dels noms

Afegit per Ferran Jorba fa més de 6 anys. Actualitzat fa aproximadament 5 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Suport a docència i recerca
Inici:
25-07-2019
Data de venciment:
31-12-2020
Paraula clau:

Descripció

Degut a que al DDD els registres ens arriben de fonts diverses (formularis, OAI, càrregues del catàleg, PubMed, Scopus, etc), ens trobem que els mateixos autors ens arriben de maneres diferents.

Donat que Invenio no té pròpiament registres d'autoritat, calen eines per detectar i normalitzar aquestes entrades. També ha de servir per aparellar els autors amb els codis Orcid.

Aquesta tasca n'unifica unes quantes d'anteriors i s'inspira amb la feina que hem fet per idregistres (#4476).


Tasques relacionades 13 (0 obertes13 tancades)

relacionat amb DDD - Tasca #4476: Programa per identificar registres externs al DDDTancadaFerran Jorba07-03-201713-12-2018Accions
relacionat amb DDD - Tasca #4684: Ampliar l'identificador Orcid a autors que no tinguin NIUTancadaFerran Jorba14-09-201731-07-2019Accions
relacionat amb DDD - Tasca #3079: Comprovar que el lligam entre ORCID i nius s'estigui fent bé al DDDTancadaFerran Jorba25-09-201416-10-2017Accions
relacionat amb DDD - Tasca #5682: Neteja dels identificadors de Scopus que el programa detecta duplicats (idregistres)TancadaFerran Jorba27-03-2020Accions
relacionat amb DDD - Tasca #5701: Revisar i modificar les revistes amb el mateix títol i ISSN diferent al DDDTancadaIsàvena Opisso15-04-2020Accions
relacionat amb DDD - Tasca #5706: El programa idautoritats.py ha de permetre donar per bons casos que detecta com a duplicatsTancadaFerran Jorba16-04-202018-06-2020Accions
relacionat amb DDD - Tasca #5707: El programa idautoritats.py ha de permetre unificar formes lleugerament diferents dels mateixos nomsTancadaFerran Jorba16-04-2020Accions
relacionat amb DDD - Tasca #5708: El programa idautoritats.py ha de contemplar autors de totes les col·leccionsTancadaFerran Jorba16-04-2020Accions
relacionat amb Docència i recerca - Tasca #5818: Control d'autoritats al DDDTancadaCarme Besson09-07-2020Accions
relacionat amb DDD - Tasca #5889: Visibilitzar les estadístiques dels canvis de idautoritatsTancadaFerran Jorba23-09-202021-12-2021Accions
relacionat amb DDD - Tasca #6343: Programa idautoritats.py: amagar els canvis (Useu-lo per) a la llista d'entradesTancadaFerran Jorba23-03-2021Accions
relacionat amb DDD - Tasca #6466: Programa idautoritats.py: eliminar els registres de NODRETSTancadaFerran Jorba12-05-2021Accions
relacionat amb DDD - Tasca #6771: Problema en la correcció d'autoritats (idautoritats)TancadaFerran Jorba24-01-202228-04-2022Accions

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #1

  • S'ha afegit relacionat amb Tasca #4476: Programa per identificar registres externs al DDD

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #2

  • S'ha afegit relacionat amb Tasca #4684: Ampliar l'identificador Orcid a autors que no tinguin NIU

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #3

En una primera fase, he creat una sèrie de llistats (author-orcid, orcid-author, autors similars) per tenir una idea del volum i del tipus de discrepàncies. Estan explicats a la tasca #5416.

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #4

  • S'ha afegit relacionat amb Tasca #3079: Comprovar que el lligam entre ORCID i nius s'estigui fent bé al DDD

CA Actualitzat per Cristina Azorin fa més de 6 anys Accions #5

  • Data de venciment s'ha establert a 19-12-2019
  • Categoria s'ha establert a Suport a docència i recerca
  • Estat ha canviat de Creada a En curs
  • Paraula clau s'ha establert a JR

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #6

Ja funciona, en proves, el programa https://ddd.uab.cat/idautoritats.py per normalitzar etiquetes d'autors de manera controlada, i que permet unificar formes diferents de noms d'autor ($a), assignar Orcids a registres que de vegades en tenen i d'altres no ($0), i les dates ($d), quan de vegades i són i de vegades no.

Treballant-hi amb l'Isàvena, ens n'hem adonat que faltaria fer el mateix per les formes desenvolupades dels noms ($q, que de vegades ens la trobem en el $a) i segurament l'afiliació ($u) quan sigui qüestió d'unificar formes diferents del mateix nom. En el cas del $u el programa ja ho detecta i en fa llistats (atenció, que és llarg! https://ddd.uab.cat/qualitat/author-affiliation-distinct.html) però encara no permet fer els canvis; no hauria de costar gaire.

Temes que ara mateix no estan resolts:

  • Fer el canvis sol·licitats quan el subcamp acaba en puntuació (típicament la coma), que ara matex no els canvia. No els canvia perquè el programa es preocupa de canviar el subcamp quan està escrit exactament de la manera que es vol canviar, per no fer-ne d'equivocats. El tema de la puntuació final està previst, però encara no fa el canvi.
  • Quan ja s'hagi canviat el nom anteriorment, proporcionar la informació de quins canvis es van fer i quan. Perquè si al cap d'un temps torna a aparèixer una forma incorrecta del mateix nom, es pugui consultar en pantalla quina decisió es va prendre.

FJ Actualitzat per Ferran Jorba fa més de 6 anys Accions #7

Després d'haver fet uns canvis interns per adaptar-lo al crexiement actual i a les funcionalitats futures, el programa https://ddd.uab.cat/idautoritats.py ara ja fa:

  1. Ja hi surt la llista dels Orcids invàlids, no cal anar a https://ddd.uab.cat/qualitat/
  2. Hi surt (UAB) al costat de l'autor si en algun $u té alguna vinculació amb la UAB. Això ho fa a totes les llistes d'autors o Orcids, i és per facilitar la priorització dels autors de la UAB.
  3. S'han solucionat les limitacions dels canvis de subcamps si acaben en puntuació, sigui coma o punt (ara ja ho fa bé sempre).
  4. Si un nom ja ha estat canviat prèviament, surt en pantalla per recordar que ja s'havia canviat i en quin sentit (Vegeu o Useu-lo per), sense haver de tornar fer les comprovacions manualment un altre cop.

CA Actualitzat per Cristina Azorin fa més de 6 anys Accions #9

Ell programa de validació d'ORCID funciona molt i molt bé, mancaria només l'opció de que permeti eliminar completament del llistat els falsos duplicats.

En el cas dels llistats de ISSN cal ampliar la validació amb la comprovació del digit de validació final(cheksum). que la comprovació dels ISSN de moment només és per la forma 4-4 dígits (o la X final). El càlcul del dígit de control està pendent.

CA Actualitzat per Cristina Azorin fa aproximadament 6 anys Accions #10

  • Data de venciment ha canviat de 19-12-2019 a 23-11-2020
  • Paraula clau ha canviat de JR a JR NCR

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #11

  • S'ha afegit relacionat amb Tasca #5682: Neteja dels identificadors de Scopus que el programa detecta duplicats (idregistres)

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #12

El dia que et posis a fer el que està pendent potser pots valorar si costaria molt afegir un nou llistat: llistat d’autors UAB que no tenen Orcid al DDD.

CA Actualitzat per Cristina Azorin fa quasi 6 anys Accions #13

  • S'ha afegit relacionat amb Tasca #5701: Revisar i modificar les revistes amb el mateix títol i ISSN diferent al DDD

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #14

A mesura que estem treient el suc d'aquest programa, veiem que el podríem utilitzar per facilitar altres tasques de normalització, i alhora, queden alguns temes no resolts.

A partir d'ara, i tal com vam acordar amb la Cristina, crearem tasques relacionades per acotar-les més bé.

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #15

  • Tema ha canviat de Programa per detectar duplicats d'entrades d'autoritat, afegir Orcids i normalitzar les formes dels noms a Programa idautoritats.py per detectar duplicats d'entrades d'autoritat, afegir Orcids i normalitzar les formes dels noms

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #16

  • S'ha afegit relacionat amb Tasca #5706: El programa idautoritats.py ha de permetre donar per bons casos que detecta com a duplicats

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #17

  • S'ha afegit relacionat amb Tasca #5707: El programa idautoritats.py ha de permetre unificar formes lleugerament diferents dels mateixos noms

FJ Actualitzat per Ferran Jorba fa quasi 6 anys Accions #18

  • S'ha afegit relacionat amb Tasca #5708: El programa idautoritats.py ha de contemplar autors de totes les col·leccions

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #20

  • S'ha afegit relacionat amb Tasca #5818: Control d'autoritats al DDD

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #21

  • Prioritat ha canviat de Normal a Urgent

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #22

  • S'ha afegit relacionat amb Tasca #5889: Visibilitzar les estadístiques dels canvis de idautoritats

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #23

  • Data de venciment ha canviat de 23-11-2020 a 31-12-2020
  • Prioritat ha canviat de Urgent a Normal

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #24

  • Estat ha canviat de En curs a Tancada

CA Actualitzat per Cristina Azorin fa més de 5 anys Accions #25

  • Paraula clau s'ha suprimit (JR NCR)

FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #26

He arreglat uns casos en els que no es feien les correccions malgrat haver-les seleccionades bé, ja sigui amb el signe = o amb una xifra.

També, des d'avui ja funciona una petició que havíeu formulat sovint: que després d'una correcció el programa tornés a la mateixa selecció des d'on s'havia fet la correcció i no al menú anterior.

FJ Actualitzat per Ferran Jorba fa aproximadament 5 anys Accions #27

  • S'ha afegit relacionat amb Tasca #6343: Programa idautoritats.py: amagar els canvis (Useu-lo per) a la llista d'entrades

FJ Actualitzat per Ferran Jorba fa quasi 5 anys Accions #28

  • S'ha afegit relacionat amb Tasca #6466: Programa idautoritats.py: eliminar els registres de NODRETS

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions #29

  • S'ha afegit relacionat amb Tasca #6771: Problema en la correcció d'autoritats (idautoritats)
Accions

També disponible a: PDF Atom