Tasca #6790
tancatNetejar, actualitzar i polir l'articleid
Descripció
El camp 035 article id és un camp propi del DDD (i de Traces) que serveix (i, sobretot, va servir al començament) per detectar i evitar duplicats d'articles de revista. Es construeix a partir dels camps ISSN (sense guió), volum (quan hi és), número (si hi és) i primera pàgina, com per exemple:
20148860v28p299
20139004v106n3p357
20147910v9n2p179
18858996v26n1p168
Quan funciona bé, serveix i fa la seva feina, però ara mateix de vegades no. Això passa sobretot en articles en premsa (en els quals no se'ls hi ha assignat volum, número o pàgina), o en articles sense pàgina (o que no la sabem). Per exemple, avui m'he fixat que no ha entrat cap article de Pubmed perquè Invenio es trobava amb 035 duplicades com a articleid, i és perquè són incomplets, p. ex:
16641078v12np
18783511vnp
14786362v24np
18746365vnp1
Resulta que aquests articleids, que òbviament es veu que són incomplets, ja els tenim carregats al DDD, i si hi ha més articles que s'haurien d'importar i que també els tenen, no es carreguen.
Algun cop ha passat també amb un articleid ben generat d'una carta a la secció de cartes d'una revista on en teniem més d'una amb el mateix issn, volum, número i pàgina.
Diria que d'entrada no s'hauria de generar si no té ni volum ni número, o si no té pàgina o la pàgina és la 1. També s'hauria d'esborrar els articleids que tenim als registres que compleixin aquesta condició.
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
- Estat ha canviat de Creada a En curs
De moment, els nous articleid de Pubmed ja sortiran millor: No es generaran si no hi ha ni volum ni número, o si el número de pàgina no hi és o és 1. Si la pàgina no és numèrica, hi elimino la p i conservo la lletra original (pel que veig, en general e o i), ex: 20734735v15e143, 1526632Xv94e2026, 14755785v26i12, etc.
Això probablement farà que la setmana que ve entrin molts articles de Pubmed perquè havien quedat encallats per culpa d'aquests articleid incomplets i repetits.
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
- S'ha actualitzat Descripció (diferències)
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys
- Data de venciment s'ha establert a 22-12-2022
- Paraula clau s'ha establert a NCR
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
Crec que els nous articleids de les importacions de Racó ja sortiran bé.
D'altra banda, des d'avui el program fix035articleid corregirà 100 articleid al dia, i els caps de setmana 100 a l'hora. Si està malament, el corregeix; si l'ha d'esborrar (perquè no té prou informació), l'esborra; i no hi és i ha de ser-hi, l'afegeix.
En total se n'han de corregir 47.443. N'hi ha un munt, per exemple, que són deguts als canvis de ISSN de paper a electrònic, sobretot per les revistes de la UAB.
FJ Actualitzat per Ferran Jorba fa aproximadament 4 anys
- Estat ha canviat de En curs a Tancada
Ja estan tots els antics arreglats i cada dia el programa fix035articleid corregeix les discrepàncies que puguin anar sortint (per canvis d'ISSN, per dades incompletes, etc).
CA Actualitzat per Cristina Azorin fa aproximadament 3 anys
- Paraula clau s'ha suprimit (
NCR)