Tasca #1245
tancatFènix. Repassar la detecció automàtica d'articles
Descripció
El el directori http://ddd-test.uab.cat:2000/fenix/ hi ha uns quants fitxers relacionats amb la detecció i càrrega d'articles de Fènix al DDD.
Una de les tasques que cal fer és avaluar si la detecció automàtica d'articles ja entrats al DDD és vàlida. El fitxer és aquest:
http://ddd-test.uab.cat:2000/fenix/articles.ddd
Al final de tot hi ha unes estadístiques que també val la pena mirar.
La possible identificació la faig d'aquesta manera.
Per a cada article, tant de Fènix com del DDD construiexo un identificador del tipus ISSNvXnYpZ. En alguns casos, en el DDD ja existeix com a 035 i a la llarga tindrà un $9 articleid, però això encara no ho és sempre.
Per a cada article de Fènix, miro en primer lloc si forma part d'una revista de la que tenim algun article al DDD. Si d'aquella revista no tenim cap article al DDD, no miro res més. Article no trobat i punt final. De fet, això redueix molt les cerques. A l'estiu del 2011 les estadístiques del final del fitxer són aquestes:
- 64 Revistes a Fènix de les que hi tenim algun article al DDD (per ISSN)
- 10010 Revistes a Fènix de les que no tenim cap article al DDD (per ISSN)
- 2352 Articles que hem cercat al DDD perquè hi tenim algun article d'aquesta revista (per ISSN)
- 46774 Articles que ni hem cercat al DDD perquè no hi tenim cap article d'aquesta revista (per ISSN)
Si és candidat a ser trobat, miro si tenim l'identificador ISSNvXnYpZ, tolerant màxim una diferència (un caràcter de més, de menys o canviat). Si coincideix, miro que 2/3 de les paraules dels títols (havent-li eliminat els accents, passat a minúscula i treient partícules) també coincideixin. Si tot plegat coindideix, es dona per bo. El següent és un cas de cerca d'article aproximada d'identificador (canvi de Volum per Número, tot el demés igual) i títol similar (la darrera pararula està escrita diferent, però 2/3 paraules sí són iguals:
ARE-57511 11385790v13p77 Anna Murià, traductora (in)visible
5602 11385790n13p77 anna muria traductora invisible
ARE-57511 = 5602
L'identificador que comença per ARE és de Fènix (ARE és la sigla d'Article de REvista), i el número sol és l'identificador del DDD. La primera línia sempre és la informació de Fènix, la segona i següents, si n'hi ha més d'una, les possibles troballes al DDD, i la darrera, que té el signe =, si automàticament hem donat per bona la coindidència. En aquest cas, que ARE-57511 coincideix amb http://ddd.uab.cat/record/5602
De vegades, si l'identificador és aproximat, es cerquen totes les aproximacions amb màxim una diferència i es tria l'article en el que el títol s'assembli més, ex:
ARE-52153 11309318n38p11 El capital social en la biblioteca de humanidades
54678 11309318n38p12 El capital social en la Biblioteca de Humanidades
54711 11309318n38p21 arxius josep maria millas vallicrosa eduard millas vendrell biblioteca ciencia tecnologia
54772 11309318n38p18 incorporacio al diposit digital documents uab ddd del fons bernard lesfargues
ARE-52153 = 54678
Si no el trobem per identificador, fem quatre cerques i triem el títol més aproximat. Les cerques són:
- ISSN, paraula més llarga del camp d'autor, paraula més llarga del camp de títol
- ISSN, paraula més llarga del camp d'autor, segona paraula més llarga del camp de títol
- ISSN, paraula més llarga del camp de títol, segona paraula més llarga del camp de títol
- paraula més llarga del camp d'autor, paraula més llarga del camp de títol, segona paraula més llarga del camp de títol
Entre claus {} hi ha quina és la cerque ens ha portat a aquest resultat. Si la cerca no dóna cap resultat, ni surt a aquesta llista. Després triem triem el títol que més s'assembli, ex:
ARE-15119 11307064n12p238 Diagnóstico de los diferentes tipos de agresividad del perro dirigida hacia las personas
68486 11307064v25n4p226 {1130-7064+agresividad+diagnostico} hipoparatiroidismo primario idiopatico felino caso clinico
70262 11307064v12n4p238 {1130-7064+Manteca+agresividad} diagnostico diferentes tipos agresividad del perro dirigida hacia personas
70583 11307064v13n3p167 {1130-7064+Manteca+diagnostico} introduccion al diagnostico tratamiento del marcaje territorial con orina en gato
ARE-15119 = 70262
La similitud del títol és la darrera paraula. Això vol dir que en els casos que el títol no coindideix, encara que la combinació d'ISSN, volum, número i pàgina sí, no el donem per bo. Perquè si no podríem donar per bones identificacions una mica fantasioses, com aquestes:
ARE-8783 11307064v1n10p157 Nocardiosis en un perro
69871 11307064v10n3p75 {1130-7064+Ramos+nocardiosis} Nocardiosis en un perro
ARE-8783 = 69871
El problema dels títols afecta específicament a les ressenyes, ex:
ARE-37598 02102862n85p238 Naïr, S. (2005) Y vendrán... las migraciones en tiempos hostiles, Barcelona : Editorial Planeta
20747 02102862n85p238 Ressenyes
24022 02102862n86p275 {0210-2862+Benitez+migraciones} Ressenyes
No s'ha trobat cap títol coincident
Les ressenyes les intentarem detectar en una segona fase, cercant, p. ex., paraules coincidents (ex., 2/3) en el camp d'abstract del DDD.
Aquesta tasca és per demanar-vos que valideu si podem donar per bona aquestes identificacions per fer una càrrega dels identificadors de Fènix al DDD com a 035 i $9 recercauab.
El resultat serien registres com aquests, resultats de la cerca «recercauab» al DDD:
La meva idea és que en mireu tots els que vulgueu, i si algun no coindideix, l'apunteu en algun lloc. Si són pocs faria una càrrega massiva i després ja esborraríem manualment els que havíem identificat malament.
Finalment, si el sistema automàtic no ha detectat que és el mateix títol però humanament es veu que sí ho és, ja podeu editar el registre i afegir-hi la 035 corresponent ($9 recercauab $a ARE-xxx). Ex.:
ARE-13761 0211402Xn28p183 El tiempo y el deseo
928 0211402xn28p183 tiempo deseo nota sobre etica fenomenologica partir levinas
982 0211402Xn31p81 {0211-402X+Melich+tiempo} fin lo humano como educar despues del holocausto
No s'ha trobat cap títol coincident
Tasques relacionades 2 (0 obertes — 2 tancades)