Projecte

General

Perfil

Accions

Tasca #1245

tancat
FJ FJ

Fènix. Repassar la detecció automàtica d'articles

Tasca #1245: Fènix. Repassar la detecció automàtica d'articles

Afegit per Ferran Jorba fa més de 14 anys. Actualitzat fa més de 11 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
-
Inici:
Data de venciment:
14-07-2014
Paraula clau:

Descripció

El el directori http://ddd-test.uab.cat:2000/fenix/ hi ha uns quants fitxers relacionats amb la detecció i càrrega d'articles de Fènix al DDD.

Una de les tasques que cal fer és avaluar si la detecció automàtica d'articles ja entrats al DDD és vàlida. El fitxer és aquest:

http://ddd-test.uab.cat:2000/fenix/articles.ddd

Al final de tot hi ha unes estadístiques que també val la pena mirar.

La possible identificació la faig d'aquesta manera.

Per a cada article, tant de Fènix com del DDD construiexo un identificador del tipus ISSNvXnYpZ. En alguns casos, en el DDD ja existeix com a 035 i a la llarga tindrà un $9 articleid, però això encara no ho és sempre.

Per a cada article de Fènix, miro en primer lloc si forma part d'una revista de la que tenim algun article al DDD. Si d'aquella revista no tenim cap article al DDD, no miro res més. Article no trobat i punt final. De fet, això redueix molt les cerques. A l'estiu del 2011 les estadístiques del final del fitxer són aquestes:

  • 64 Revistes a Fènix de les que hi tenim algun article al DDD (per ISSN)
  • 10010 Revistes a Fènix de les que no tenim cap article al DDD (per ISSN)
  • 2352 Articles que hem cercat al DDD perquè hi tenim algun article d'aquesta revista (per ISSN)
  • 46774 Articles que ni hem cercat al DDD perquè no hi tenim cap article d'aquesta revista (per ISSN)

Si és candidat a ser trobat, miro si tenim l'identificador ISSNvXnYpZ, tolerant màxim una diferència (un caràcter de més, de menys o canviat). Si coincideix, miro que 2/3 de les paraules dels títols (havent-li eliminat els accents, passat a minúscula i treient partícules) també coincideixin. Si tot plegat coindideix, es dona per bo. El següent és un cas de cerca d'article aproximada d'identificador (canvi de Volum per Número, tot el demés igual) i títol similar (la darrera pararula està escrita diferent, però 2/3 paraules sí són iguals:

 ARE-57511 11385790v13p77 Anna Murià, traductora (in)visible 
      5602 11385790n13p77 anna muria traductora invisible
 ARE-57511 = 5602

L'identificador que comença per ARE és de Fènix (ARE és la sigla d'Article de REvista), i el número sol és l'identificador del DDD. La primera línia sempre és la informació de Fènix, la segona i següents, si n'hi ha més d'una, les possibles troballes al DDD, i la darrera, que té el signe =, si automàticament hem donat per bona la coindidència. En aquest cas, que ARE-57511 coincideix amb http://ddd.uab.cat/record/5602

De vegades, si l'identificador és aproximat, es cerquen totes les aproximacions amb màxim una diferència i es tria l'article en el que el títol s'assembli més, ex:

 ARE-52153 11309318n38p11 El capital social en la biblioteca de humanidades 
     54678 11309318n38p12 El capital social en la Biblioteca de Humanidades
     54711 11309318n38p21 arxius josep maria millas vallicrosa eduard millas vendrell biblioteca ciencia tecnologia
     54772 11309318n38p18 incorporacio al diposit digital documents uab ddd del fons bernard lesfargues
 ARE-52153 = 54678

Si no el trobem per identificador, fem quatre cerques i triem el títol més aproximat. Les cerques són:

  • ISSN, paraula més llarga del camp d'autor, paraula més llarga del camp de títol
  • ISSN, paraula més llarga del camp d'autor, segona paraula més llarga del camp de títol
  • ISSN, paraula més llarga del camp de títol, segona paraula més llarga del camp de títol
  • paraula més llarga del camp d'autor, paraula més llarga del camp de títol, segona paraula més llarga del camp de títol

Entre claus {} hi ha quina és la cerque ens ha portat a aquest resultat. Si la cerca no dóna cap resultat, ni surt a aquesta llista. Després triem triem el títol que més s'assembli, ex:

 ARE-15119 11307064n12p238 Diagnóstico de los diferentes tipos de agresividad del perro dirigida hacia las personas 
     68486 11307064v25n4p226 {1130-7064+agresividad+diagnostico} hipoparatiroidismo primario idiopatico felino caso clinico
     70262 11307064v12n4p238 {1130-7064+Manteca+agresividad} diagnostico diferentes tipos agresividad del perro dirigida hacia personas
     70583 11307064v13n3p167 {1130-7064+Manteca+diagnostico} introduccion al diagnostico tratamiento del marcaje territorial con orina en gato
 ARE-15119 = 70262

La similitud del títol és la darrera paraula. Això vol dir que en els casos que el títol no coindideix, encara que la combinació d'ISSN, volum, número i pàgina sí, no el donem per bo. Perquè si no podríem donar per bones identificacions una mica fantasioses, com aquestes:

  ARE-8783 11307064v1n10p157 Nocardiosis en un perro 
     69871 11307064v10n3p75 {1130-7064+Ramos+nocardiosis} Nocardiosis en un perro
  ARE-8783 = 69871

El problema dels títols afecta específicament a les ressenyes, ex:

 ARE-37598 02102862n85p238 Naïr, S. (2005) Y vendrán... las migraciones en tiempos hostiles, Barcelona : Editorial Planeta
     20747 02102862n85p238 Ressenyes
     24022 02102862n86p275 {0210-2862+Benitez+migraciones} Ressenyes
           No s'ha trobat cap títol coincident 

Les ressenyes les intentarem detectar en una segona fase, cercant, p. ex., paraules coincidents (ex., 2/3) en el camp d'abstract del DDD.

Aquesta tasca és per demanar-vos que valideu si podem donar per bona aquestes identificacions per fer una càrrega dels identificadors de Fènix al DDD com a 035 i $9 recercauab.

El resultat serien registres com aquests, resultats de la cerca «recercauab» al DDD:

La meva idea és que en mireu tots els que vulgueu, i si algun no coindideix, l'apunteu en algun lloc. Si són pocs faria una càrrega massiva i després ja esborraríem manualment els que havíem identificat malament.

Finalment, si el sistema automàtic no ha detectat que és el mateix títol però humanament es veu que sí ho és, ja podeu editar el registre i afegir-hi la 035 corresponent ($9 recercauab $a ARE-xxx). Ex.:

 ARE-13761 0211402Xn28p183 El tiempo y el deseo 
       928 0211402xn28p183 tiempo deseo nota sobre etica fenomenologica partir levinas
       982 0211402Xn31p81 {0211-402X+Melich+tiempo} fin lo humano como educar despues del holocausto
           No s'ha trobat cap títol coincident 

Tasques relacionades 2 (0 obertes2 tancades)

relacionat amb DDD - Tasca #2218: Cal el $q de la 773?TancadaFerran Jorba21-03-2013Accions
relacionat amb DDD - Tasca #687: Separar els articles de revista en directoris, un per númeroTancadaFerran JorbaAccions
Accions

També disponible a: PDF Atom