Projecte

General

Perfil

Accions

Tasca #7335

tancat
FJ FJ

Corregir automàticament la forma dels autors per evitar haver-ho de fer manualment

Tasca #7335: Corregir automàticament la forma dels autors per evitar haver-ho de fer manualment

Afegit per Ferran Jorba fa més de 3 anys. Actualitzat fa aproximadament 3 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Gestió de la col·lecció
Inici:
22-07-2022
Data de venciment:
29-07-2022
Paraula clau:

Descripció

Amb els llistats d'idautoritats hem après moltes coses de com tenim els autors. La base de dades de canvis ja funciona per fer correccions automàtiques, com agafar la forma correcta a partir de l'orcid o de l'històric de correccions. Les afiliacions també es corregeixen automàticament, i així ens estalviem d'haver de repetir automàticament la mateixa correcció un cop i un altre.

Però hem vist també que hi ha una sèrie de canvis que es poden fer automàticament només tenint en compte la forma del nom, i independentment de si hi ha històric o no. És el cas de les inicials.

Per exemple, hi ha autors amb les inicials juntes, sense espai però amb puntuació (Anthony, M.T.) o separades (Anthony, M. T.) o sense cap punt entre les dues (Arqué, JM.). N'hi ha que no tenen ni puntuació (Ahmed, S Faisal) que òbviament n'hauria de portar.

Totes aquestes correccions, que es basen purament en la forma, es poden fer automàticament.

En aquesta tasca indicarem quines aprovem i el progrés del programa.

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #1

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #2

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #3

  • Tema ha canviat de Corregir automàticament la forma d'autors per evitar-ho d'haver-ho de fer manualment a Corregir automàticament la forma dels autors per evitar haver-ho de fer manualment

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #4

IO Actualitzat per Isàvena Opisso fa més de 3 anys Accions #5

La Descripció de persones (RDA capítols 8 i 9) especifica a l’apartat 8.5.6.1

Cuando se registre el nombre de una persona o familia:
a) si una inicial representa un nombre de pila o apellido, y la inicial esta seguida por otra inicial o un nombre, deje un espacio entre el punto que sigue a una inicial
b) si el nombre consiste total o primariamente de letras separadas, deje un espacio entre las letras (independientemente de que estén seguidas de puntos o no)
c) si el nombre incluye iniciales o abreviaturas que forman parte de un título o término de tratamiento, deje un espacio entre la inicial o abreviatura y la inicial, abreviatura, número o palabra subsecuente.
EJEMPLO
Rowling, J. K.
Franco G. S., José Fernándo
A. Hafiz Anshary A. Z.
A. E. I. O. U.
A. M. do R. A.
Dr. X
Mrs. R. F. D.
Flamanville, Mme de
DJ Q
DJ I. C. O. N.
Las iniciales "DJ" en el nombre son una forma abreviada del término "Disc jockey"

Enllaços per accedir a les RDA:
https://cantic.bnc.cat/files/cantic_rda_persones.pdf
https://original.rdatoolkit.org/

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #6

Gràcies, Isàvena, treballaré a partir d'aquestes convencions.

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #7

M'he trobat també amb casos d'un espai abans de la coma, que es pot eliminar i faria innecessària la confirmació que aquestes dues entrades són de la mateixa persona:

  • Aleksandrova , Elena
  • Aleksandrova, Elena

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #8

  • Estat ha canviat de Creada a En curs

Una mostra de com quedarien les correccions, que cobreix diferents casos:

264659: -Ríos, L.N.
264659: +Ríos, L. N.
264659: -Fonticoba, T.d.D.
264659: +Fonticoba, T. d. D.
264654: -Garrido-Navas, M.D.C.
264654: +Garrido-Navas, M. D. C.
264395: -Valls Fernández, M Dolores
264395: +Valls Fernández, M. Dolores
264383: -Romero-Crespo , Juan Antonio
264383: +Romero-Crespo, Juan Antonio
264380: -Blackburn, Nicole E
264380: +Blackburn, Nicole E.
264363: -Prendes Espinosa, M.ª Paz
264363: +Prendes Espinosa, Mª Paz
264337: -Basart i Muñoz, Josep M
264337: +Basart i Muñoz, Josep M.
259373: -Mora, R..
259373: +Mora, R.
257815: -Benavente i Vidal, Robert ,
257815: +Benavente i Vidal, Robert,
257483: -Enrich Bengoa,Jennifer
257483: +Enrich Bengoa, Jennifer
40559: -Salvador Jiménez, M ª Jesús,
40559: +Salvador Jiménez, Mª Jesús,
39913: -Bodemann, Y.Michal
39913: +Bodemann, Y. Michal

El programa té en compte casos que m'anaven sortint i que calia tenir en compte, com: no posar punt després dels nombres romans (I, II, X, IX, etc.), no posar espai abans del guió (M.-T.), i corregir els espais de les puntuacions després de fer les correccions.

És a dir, que potser no els corregeix tots, però es tracta de no arreglar-ne cap de malament. Diu que pot corregir 6972 registres.

FJ Actualitzat per Ferran Jorba fa més de 3 anys Accions #9

  • Estat ha canviat de En curs a Tancada

Sembla que ha funcionat prou bé. El programa fixX00initials ha corregit aquests 6.972 registres, però que es corresponen a 10.530 autors diferents i a 56.349 etiquetes 100, 600 i 700.

La llista d'autors amb noms similars (https://ddd.uab.cat/idautoritats.py/review_similar_authors) ha baixat per primer cop de 18.000 fins als 17.984.

Deixaré que es facin les correccions cada dia perquè a partir d'ara es corregeixin de seguida i no s'acumulin.

CA Actualitzat per Cristina Azorin fa més de 3 anys Accions #10

  • Data de venciment s'ha establert a 29-07-2022
  • Paraula clau s'ha establert a NCR

CA Actualitzat per Cristina Azorin fa aproximadament 3 anys Accions #11

  • Paraula clau s'ha suprimit (NCR)
Accions

També disponible a: PDF Atom