Tasca #3148
tancatFer una comprovació automàtica de possibles duplicats Ein@ - DDD amb la 035
Descripció
Amb la posada en funcionament de l'autoarxiu hem detectat casos de duplicats entre articles ja entrats i altres de pujats per Ein@ que no estaven lligats amb l'ARE. Es podria fer una comprovació bàsica (sense entrar en gaires detalls) a partir de la 035 de issn, volum, pàgines... i després la UTP ja farà la comprovació manual i lligarà els registres afegint l'ARE.
CA Actualitzat per Cristina Azorin fa més de 10 anys
- Categoria s'ha establert a Suport a docència i recerca
CA Actualitzat per Cristina Azorin fa aproximadament 9 anys
- Data de venciment s'ha establert a 01-06-2017
- Paraula clau s'ha establert a JR
FJ Actualitzat per Ferran Jorba fa quasi 9 anys
- S'ha afegit relacionat amb Tasca #4476: Programa per identificar registres externs al DDD
CA Actualitzat per Cristina Azorin fa més de 8 anys
- Data de venciment ha canviat de 01-06-2017 a 06-11-2017
FJ Actualitzat per Ferran Jorba fa més de 8 anys
- Data de venciment ha canviat de 06-11-2017 a 31-01-2017
- Estat ha canviat de Creada a En curs
De moment hem fet un llistat d'equivalències entre el DDD i recercauab via DOIs: Es genera diàriament i el resultat va a parar a https://ddd.uab.cat/qualitat/doi2recid.txt.
Queda pendent el que motiva aquesta tasca, via issn, volum, número i pàgina. Es tracta de fer el mateix que l'anterior.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- Prioritat ha canviat de Normal a Alta
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- Data de venciment ha canviat de 31-01-2017 a 31-01-2018
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
He fet una prova de casar els registres, no només amb l'articleid (ISSNvXnYpZ), sinó també amb els valors normalitzats de dois, urls i títols. El resultat és molt prometedor, i dóna 891 possibles registres duplicats.
La sortida estàtica en format de text és: https://ddd.uab.cat/qualitat/recercauab-possibles-trobats-al-ddd.txt, que de moment deixo que es vagi actualitzant cada dia.
Cal evidentment millorar la sortida, ja sigui en html i amb links que funcionin, amb una aplicació dinàmica específica, o bé integrar-ho amb https://ddd.uab.cat/idregistres.py.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
Sí, estic d'acord en millorar la sortida però compte que alguns que detecta ja tenen l'ARE posat, per exemple:
Aquest ja estava referenciat amb la 035 al DDD però eina.py em demanava pujar el fitxer:
recercauab: ARE--32564 De la investigación a la educación y viceversa
poster és: https://ddd.uab.cat/record/32344 De la investigación a la educación y viceversa
Aquest ja estava referenciat amb la 035 al DDD i eina.py ho sabia i m'ha donat el missatge correcte "Aquest document ja existeix al DDD":
recercauab: ARE-11282 Las residencias de ancianos y su significado sociológico
poster és: https://ddd.uab.cat/record/52061 Las residencias de ancianos y su significado sociológico
Volia deixar aquí escrit que darrerament em trobo amb molts registres amb ARE's duplicats i no ho entenc. El raonament de l'Àrea de Recerca sempre ha estat que quan hi havia més d'un autor cada un l'entrava pel seu costat i li duplicaven però ara em trobo molt que només tenen un autor. Sospito que en algun moment (no se si ara mateix) es van fer càrregues automàtiques que no van comprovar aquests duplicats, no se, és una teoria.
Com a exemple, el primer que sortia a la llista del Ferran:
recercauab: ARE--32361 La flexibilidad laboral
poster és: https://ddd.uab.cat/record/131741 La flexibilidad laboralFJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Cristina Azorin va escriure:
Sí, estic d'acord en millorar la sortida però compte que alguns que detecta ja tenen l'ARE posat, per exemple:
Corregit. He vist que passava quan al DDD hi havia més d'un identificador Fènix en un sol registre (és a dir, més d'un ARE), i només en considerava un. Ara els té en compte tots i, per tant, el nombre de registres trobats ha baixat de 890 a 713.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
Jo crec que ara està molt bé la llista, he fet 5 o 6 i els ha detectat correctament. Hi ha problemes amb els títols curts perquè són més difícils de lligar (per exemple, un que es deia probiotics).
Podries posar la llista al directori qualitat? De moment per anar treballant, més endavant podem pensar com eliminar els que no són coincidents per a que no tornin a aparèixer
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Cristina Azorin va escriure:
Jo crec que ara està molt bé la llista, he fet 5 o 6 i els ha detectat correctament. Hi ha problemes amb els títols curts perquè són més difícils de lligar (per exemple, un que es deia probiotics).
He fet una prova afegint-hi el subtítol i ha baixat a uns 500 registres, perquè el títol també el mira, però no el normalitza, vull dir que, ara mateix ha de ser igual en majúscules, minúscules, puntuació, etc. Pensava fer aquesta comparació del títol sencer (amb subtítol) però en la seva versió simplificada-normalitzada, ignorant aquests aspectes més ortotipogràfics.
Podries posar la llista al directori qualitat? De moment per anar treballant, més endavant podem pensar com eliminar els que no són coincidents per a que no tornin a aparèixer
De fet ja hi és, i ja està posat perquè s'actualtizi automàticament cada dia:
https://ddd.uab.cat/qualitat/recercauab-possibles-trobats-al-ddd.txt
Pendent queda, com a mínim, passar-ho a html perquè els enllaços funcionin i, potser, passar-lo a https://ddd.uab.cat/idregistres.py, com si el recollissim via OAI.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Ferran Jorba va escriure:
He fet una prova afegint-hi el subtítol i ha baixat a uns 500 registres, perquè el títol també el mira, però no el normalitza, vull dir que, ara mateix ha de ser igual en majúscules, minúscules, puntuació, etc. Pensava fer aquesta comparació del títol sencer (amb subtítol) però en la seva versió simplificada-normalitzada, ignorant aquests aspectes més ortotipogràfics.
Amb la comparació del títol sencer (és a dir, incloent-hi el subtítol quan en té), però normalitzat (sense accents ni puntuació, i passat tot a minúscules), el número de potencials registres trobats passa a ser 861. I, comparant aquest resultat amb l'anterior, diria que el resultat és més correcte; per exemple, aquest és un títol que abans no trobava i ara sí. Les difèrencies estan en els accents de independència i teoría:
recercauab: ARE-15081 La independencia de la teoría moral en Descartes poster és: https://ddd.uab.cat/record/168735 La independència de la teoria moral en Descartes
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
El llistat va molt bé i ja estem treballant. per poder tancar la tasca caldria oferir-lo a través del idregistres, per poder anar netejant els que no són coincidents i que no tornin a aparèixer.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
Hem feu un centenar de registres aquests dies, no podem fer una resta perquè cada dia el llistat va augmentant. portarem el control dels canvis realitzats durant unes setmanes per veure l'evolució.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
La Yolanda ha pogut enllaçar 147 ARE's amb els registres DDD corresponents, però en canvi a detectat 179 falses coincidències, estaria bé, integrar-ho amb el sistema dels idregistres per poder entrar els 'No'.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Cristina Azorin va escriure:
La Yolanda ha pogut enllaçar 147 ARE's amb els registres DDD corresponents, però en canvi a detectat 179 falses coincidències, estaria bé, integrar-ho amb el sistema dels idregistres per poder entrar els 'No'.
Ho tinc força avançat, espero poder-vos-ho ensenyar a ddd-test aviat.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Ho tinc força avançat, espero poder-vos-ho ensenyar a ddd-test aviat.
Ja es comença a veure; trieu, per exemple, els Registres possiblement identificats anteriors al 1990: https://ddd-test.uab.cat/idregistres.py
De tota manera, encara no acaba de rutllar del tot, perquè alguns ja tenen l'identificació Eina a la 035 i malgrat tot els ensenya; p. ex: https://ddd-test.uab.cat/idregistres.py/review_possible_matches?year=1989 (el primer, ARE-2088). De fet, es veu de seguida perquè el sistema diu que el registre ja existeix i en mostra la miniatura. Sí que funciona marcar els falsos positius.
Continuarà.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
Ferran Jorba va escriure:
Ho tinc força avançat, espero poder-vos-ho ensenyar a ddd-test aviat.
Ja es comença a veure; trieu, per exemple, els Registres possiblement identificats anteriors al 1990: https://ddd-test.uab.cat/idregistres.py
Moltes gràcies, ja podem marcar aquí els falsos positius, encara que sigui el test?
De tota manera, encara no acaba de rutllar del tot, perquè alguns ja tenen l'identificació Eina a la 035 i malgrat tot els ensenya; p. ex: https://ddd-test.uab.cat/idregistres.py/review_possible_matches?year=1989 (el primer, ARE-2088). De fet, es veu de seguida perquè el sistema diu que el registre ja existeix i en mostra la miniatura. Sí que funciona marcar els falsos positius.
Continuarà.
És el tema dels ARE duplicats, l'ARE-2088 no hi és en el registre. És cert que hi ha una ARE però és un altre (ARE-35792), ho detecta bé.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Cristina Azorin va escriure:
Ja es comença a veure; trieu, per exemple, els Registres possiblement identificats anteriors al 1990: https://ddd-test.uab.cat/idregistres.py
Moltes gràcies, ja podem marcar aquí els falsos positius, encara que sigui el test?
Encara no, perquè estic matxacant els valors cada 10 minuts, i m'interessa encara controlar les proves jo.
És el tema dels ARE duplicats, l'ARE-2088 no hi és en el registre. És cert que hi ha una ARE però és un altre (ARE-35792), ho detecta bé.
I una altra cosa: que el programa ha crescut, i haurà de créixer encara quan hi incorporem Pubmed (perquè entenc que ho haurem de fer tard o d'hora), i altres fonts futures, i té una crisi de creixement.
Jo crec que he trobat una solució provisional, però voldria confirmar que aguanta més o menys, tot i sabent que és fràgil, perquè us permeti anar avançant. En tot cas, li caldrà una reorganització interna, perquè s'ha embolicat massa internament i a mi mateix ja em costa seguir-lo. Això també explica els falsos duplicats trobats al #4476.
Compto dir-vos alguna cosa mes definitiva aquest mateix matí.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Jo crec que ja està raonablement a punt, i a partir de demà s'integraran a https://ddd.uab.cat/idregistres.py els registres provinents de Fènix.
Com sempre, comenceu amb prudència i comproveu els resultats. Gràcies.
FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys
Ferran Jorba va escriure:
Jo crec que ja està raonablement a punt, i a partir de demà s'integraran a https://ddd.uab.cat/idregistres.py els registres provinents de Fènix.
He fet alguna comprovació, he confirmat un registre, i crec que funciona correctament.
CA Actualitzat per Cristina Azorin fa aproximadament 8 anys
- Data de venciment ha canviat de 31-01-2018 a 08-03-2018
- Estat ha canviat de En curs a Tancada
- Prioritat ha canviat de Alta a Normal
CA Actualitzat per Cristina Azorin fa aproximadament 7 anys
- Paraula clau s'ha suprimit (
JR)