Projecte

General

Perfil

Accions

Tasca #3148

tancat
CA FJ

Fer una comprovació automàtica de possibles duplicats Ein@ - DDD amb la 035

Tasca #3148: Fer una comprovació automàtica de possibles duplicats Ein@ - DDD amb la 035

Afegit per Cristina Azorin fa més de 11 anys. Actualitzat fa aproximadament 7 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Suport a docència i recerca
Inici:
06-11-2014
Data de venciment:
08-03-2018
Paraula clau:

Descripció

Amb la posada en funcionament de l'autoarxiu hem detectat casos de duplicats entre articles ja entrats i altres de pujats per Ein@ que no estaven lligats amb l'ARE. Es podria fer una comprovació bàsica (sense entrar en gaires detalls) a partir de la 035 de issn, volum, pàgines... i després la UTP ja farà la comprovació manual i lligarà els registres afegint l'ARE.


Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #4476: Programa per identificar registres externs al DDDTancadaFerran Jorba07-03-201713-12-2018Accions

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #1

  • Categoria s'ha establert a Suport a docència i recerca

CA Actualitzat per Cristina Azorin fa aproximadament 9 anys Accions #2

  • Data de venciment s'ha establert a 01-06-2017
  • Paraula clau s'ha establert a JR

FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #3

  • S'ha afegit relacionat amb Tasca #4476: Programa per identificar registres externs al DDD

CA Actualitzat per Cristina Azorin fa més de 8 anys Accions #4

  • Data de venciment ha canviat de 01-06-2017 a 06-11-2017

FJ Actualitzat per Ferran Jorba fa més de 8 anys Accions #6

  • Data de venciment ha canviat de 06-11-2017 a 31-01-2017
  • Estat ha canviat de Creada a En curs

De moment hem fet un llistat d'equivalències entre el DDD i recercauab via DOIs: Es genera diàriament i el resultat va a parar a https://ddd.uab.cat/qualitat/doi2recid.txt.

Queda pendent el que motiva aquesta tasca, via issn, volum, número i pàgina. Es tracta de fer el mateix que l'anterior.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #7

  • Prioritat ha canviat de Normal a Alta

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #8

  • Data de venciment ha canviat de 31-01-2017 a 31-01-2018

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #9

He fet una prova de casar els registres, no només amb l'articleid (ISSNvXnYpZ), sinó també amb els valors normalitzats de dois, urls i títols. El resultat és molt prometedor, i dóna 891 possibles registres duplicats.

La sortida estàtica en format de text és: https://ddd.uab.cat/qualitat/recercauab-possibles-trobats-al-ddd.txt, que de moment deixo que es vagi actualitzant cada dia.

Cal evidentment millorar la sortida, ja sigui en html i amb links que funcionin, amb una aplicació dinàmica específica, o bé integrar-ho amb https://ddd.uab.cat/idregistres.py.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #10

Sí, estic d'acord en millorar la sortida però compte que alguns que detecta ja tenen l'ARE posat, per exemple:

Aquest ja estava referenciat amb la 035 al DDD però eina.py em demanava pujar el fitxer:

recercauab: ARE--32564 De la investigación a la educación y viceversa
poster és: https://ddd.uab.cat/record/32344 De la investigación a la educación y viceversa

Aquest ja estava referenciat amb la 035 al DDD i eina.py ho sabia i m'ha donat el missatge correcte "Aquest document ja existeix al DDD":
recercauab: ARE-11282 Las residencias de ancianos y su significado sociológico
poster és: https://ddd.uab.cat/record/52061 Las residencias de ancianos y su significado sociológico


Volia deixar aquí escrit que darrerament em trobo amb molts registres amb ARE's duplicats i no ho entenc. El raonament de l'Àrea de Recerca sempre ha estat que quan hi havia més d'un autor cada un l'entrava pel seu costat i li duplicaven però ara em trobo molt que només tenen un autor. Sospito que en algun moment (no se si ara mateix) es van fer càrregues automàtiques que no van comprovar aquests duplicats, no se, és una teoria.

Com a exemple, el primer que sortia a la llista del Ferran:

recercauab: ARE--32361 La flexibilidad laboral
poster és: https://ddd.uab.cat/record/131741 La flexibilidad laboral

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #11

Cristina Azorin va escriure:

Sí, estic d'acord en millorar la sortida però compte que alguns que detecta ja tenen l'ARE posat, per exemple:

Corregit. He vist que passava quan al DDD hi havia més d'un identificador Fènix en un sol registre (és a dir, més d'un ARE), i només en considerava un. Ara els té en compte tots i, per tant, el nombre de registres trobats ha baixat de 890 a 713.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #12

Jo crec que ara està molt bé la llista, he fet 5 o 6 i els ha detectat correctament. Hi ha problemes amb els títols curts perquè són més difícils de lligar (per exemple, un que es deia probiotics).

Podries posar la llista al directori qualitat? De moment per anar treballant, més endavant podem pensar com eliminar els que no són coincidents per a que no tornin a aparèixer

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #13

Cristina Azorin va escriure:

Jo crec que ara està molt bé la llista, he fet 5 o 6 i els ha detectat correctament. Hi ha problemes amb els títols curts perquè són més difícils de lligar (per exemple, un que es deia probiotics).

He fet una prova afegint-hi el subtítol i ha baixat a uns 500 registres, perquè el títol també el mira, però no el normalitza, vull dir que, ara mateix ha de ser igual en majúscules, minúscules, puntuació, etc. Pensava fer aquesta comparació del títol sencer (amb subtítol) però en la seva versió simplificada-normalitzada, ignorant aquests aspectes més ortotipogràfics.

Podries posar la llista al directori qualitat? De moment per anar treballant, més endavant podem pensar com eliminar els que no són coincidents per a que no tornin a aparèixer

De fet ja hi és, i ja està posat perquè s'actualtizi automàticament cada dia:

https://ddd.uab.cat/qualitat/recercauab-possibles-trobats-al-ddd.txt

Pendent queda, com a mínim, passar-ho a html perquè els enllaços funcionin i, potser, passar-lo a https://ddd.uab.cat/idregistres.py, com si el recollissim via OAI.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #14

Ferran Jorba va escriure:

He fet una prova afegint-hi el subtítol i ha baixat a uns 500 registres, perquè el títol també el mira, però no el normalitza, vull dir que, ara mateix ha de ser igual en majúscules, minúscules, puntuació, etc. Pensava fer aquesta comparació del títol sencer (amb subtítol) però en la seva versió simplificada-normalitzada, ignorant aquests aspectes més ortotipogràfics.

Amb la comparació del títol sencer (és a dir, incloent-hi el subtítol quan en té), però normalitzat (sense accents ni puntuació, i passat tot a minúscules), el número de potencials registres trobats passa a ser 861. I, comparant aquest resultat amb l'anterior, diria que el resultat és més correcte; per exemple, aquest és un títol que abans no trobava i ara sí. Les difèrencies estan en els accents de independència i teoría:

 recercauab: ARE-15081 La independencia de la teoría moral en Descartes
  poster és: https://ddd.uab.cat/record/168735 La independència de la teoria moral en Descartes

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #15

El llistat va molt bé i ja estem treballant. per poder tancar la tasca caldria oferir-lo a través del idregistres, per poder anar netejant els que no són coincidents i que no tornin a aparèixer.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #16

Hem feu un centenar de registres aquests dies, no podem fer una resta perquè cada dia el llistat va augmentant. portarem el control dels canvis realitzats durant unes setmanes per veure l'evolució.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #17

La Yolanda ha pogut enllaçar 147 ARE's amb els registres DDD corresponents, però en canvi a detectat 179 falses coincidències, estaria bé, integrar-ho amb el sistema dels idregistres per poder entrar els 'No'.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #18

Cristina Azorin va escriure:

La Yolanda ha pogut enllaçar 147 ARE's amb els registres DDD corresponents, però en canvi a detectat 179 falses coincidències, estaria bé, integrar-ho amb el sistema dels idregistres per poder entrar els 'No'.

Ho tinc força avançat, espero poder-vos-ho ensenyar a ddd-test aviat.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #19

Ho tinc força avançat, espero poder-vos-ho ensenyar a ddd-test aviat.

Ja es comença a veure; trieu, per exemple, els Registres possiblement identificats anteriors al 1990: https://ddd-test.uab.cat/idregistres.py

De tota manera, encara no acaba de rutllar del tot, perquè alguns ja tenen l'identificació Eina a la 035 i malgrat tot els ensenya; p. ex: https://ddd-test.uab.cat/idregistres.py/review_possible_matches?year=1989 (el primer, ARE-2088). De fet, es veu de seguida perquè el sistema diu que el registre ja existeix i en mostra la miniatura. Sí que funciona marcar els falsos positius.

Continuarà.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #20

Ferran Jorba va escriure:

Ho tinc força avançat, espero poder-vos-ho ensenyar a ddd-test aviat.

Ja es comença a veure; trieu, per exemple, els Registres possiblement identificats anteriors al 1990: https://ddd-test.uab.cat/idregistres.py

Moltes gràcies, ja podem marcar aquí els falsos positius, encara que sigui el test?

De tota manera, encara no acaba de rutllar del tot, perquè alguns ja tenen l'identificació Eina a la 035 i malgrat tot els ensenya; p. ex: https://ddd-test.uab.cat/idregistres.py/review_possible_matches?year=1989 (el primer, ARE-2088). De fet, es veu de seguida perquè el sistema diu que el registre ja existeix i en mostra la miniatura. Sí que funciona marcar els falsos positius.

Continuarà.

És el tema dels ARE duplicats, l'ARE-2088 no hi és en el registre. És cert que hi ha una ARE però és un altre (ARE-35792), ho detecta bé.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #21

Cristina Azorin va escriure:

Ja es comença a veure; trieu, per exemple, els Registres possiblement identificats anteriors al 1990: https://ddd-test.uab.cat/idregistres.py

Moltes gràcies, ja podem marcar aquí els falsos positius, encara que sigui el test?

Encara no, perquè estic matxacant els valors cada 10 minuts, i m'interessa encara controlar les proves jo.

És el tema dels ARE duplicats, l'ARE-2088 no hi és en el registre. És cert que hi ha una ARE però és un altre (ARE-35792), ho detecta bé.

I una altra cosa: que el programa ha crescut, i haurà de créixer encara quan hi incorporem Pubmed (perquè entenc que ho haurem de fer tard o d'hora), i altres fonts futures, i té una crisi de creixement.

Jo crec que he trobat una solució provisional, però voldria confirmar que aguanta més o menys, tot i sabent que és fràgil, perquè us permeti anar avançant. En tot cas, li caldrà una reorganització interna, perquè s'ha embolicat massa internament i a mi mateix ja em costa seguir-lo. Això també explica els falsos duplicats trobats al #4476.

Compto dir-vos alguna cosa mes definitiva aquest mateix matí.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #22

Jo crec que ja està raonablement a punt, i a partir de demà s'integraran a https://ddd.uab.cat/idregistres.py els registres provinents de Fènix.

Com sempre, comenceu amb prudència i comproveu els resultats. Gràcies.

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #23

Ferran Jorba va escriure:

Jo crec que ja està raonablement a punt, i a partir de demà s'integraran a https://ddd.uab.cat/idregistres.py els registres provinents de Fènix.

He fet alguna comprovació, he confirmat un registre, i crec que funciona correctament.

CA Actualitzat per Cristina Azorin fa aproximadament 8 anys Accions #24

  • Data de venciment ha canviat de 31-01-2018 a 08-03-2018
  • Estat ha canviat de En curs a Tancada
  • Prioritat ha canviat de Alta a Normal

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #25

  • Paraula clau s'ha suprimit (JR)
Accions

També disponible a: PDF Atom