Tasca #1245
tancatFènix. Repassar la detecció automàtica d'articles
Descripció
El el directori http://ddd-test.uab.cat:2000/fenix/ hi ha uns quants fitxers relacionats amb la detecció i càrrega d'articles de Fènix al DDD.
Una de les tasques que cal fer és avaluar si la detecció automàtica d'articles ja entrats al DDD és vàlida. El fitxer és aquest:
http://ddd-test.uab.cat:2000/fenix/articles.ddd
Al final de tot hi ha unes estadístiques que també val la pena mirar.
La possible identificació la faig d'aquesta manera.
Per a cada article, tant de Fènix com del DDD construiexo un identificador del tipus ISSNvXnYpZ. En alguns casos, en el DDD ja existeix com a 035 i a la llarga tindrà un $9 articleid, però això encara no ho és sempre.
Per a cada article de Fènix, miro en primer lloc si forma part d'una revista de la que tenim algun article al DDD. Si d'aquella revista no tenim cap article al DDD, no miro res més. Article no trobat i punt final. De fet, això redueix molt les cerques. A l'estiu del 2011 les estadístiques del final del fitxer són aquestes:
- 64 Revistes a Fènix de les que hi tenim algun article al DDD (per ISSN)
- 10010 Revistes a Fènix de les que no tenim cap article al DDD (per ISSN)
- 2352 Articles que hem cercat al DDD perquè hi tenim algun article d'aquesta revista (per ISSN)
- 46774 Articles que ni hem cercat al DDD perquè no hi tenim cap article d'aquesta revista (per ISSN)
Si és candidat a ser trobat, miro si tenim l'identificador ISSNvXnYpZ, tolerant màxim una diferència (un caràcter de més, de menys o canviat). Si coincideix, miro que 2/3 de les paraules dels títols (havent-li eliminat els accents, passat a minúscula i treient partícules) també coincideixin. Si tot plegat coindideix, es dona per bo. El següent és un cas de cerca d'article aproximada d'identificador (canvi de Volum per Número, tot el demés igual) i títol similar (la darrera pararula està escrita diferent, però 2/3 paraules sí són iguals:
ARE-57511 11385790v13p77 Anna Murià, traductora (in)visible
5602 11385790n13p77 anna muria traductora invisible
ARE-57511 = 5602
L'identificador que comença per ARE és de Fènix (ARE és la sigla d'Article de REvista), i el número sol és l'identificador del DDD. La primera línia sempre és la informació de Fènix, la segona i següents, si n'hi ha més d'una, les possibles troballes al DDD, i la darrera, que té el signe =, si automàticament hem donat per bona la coindidència. En aquest cas, que ARE-57511 coincideix amb http://ddd.uab.cat/record/5602
De vegades, si l'identificador és aproximat, es cerquen totes les aproximacions amb màxim una diferència i es tria l'article en el que el títol s'assembli més, ex:
ARE-52153 11309318n38p11 El capital social en la biblioteca de humanidades
54678 11309318n38p12 El capital social en la Biblioteca de Humanidades
54711 11309318n38p21 arxius josep maria millas vallicrosa eduard millas vendrell biblioteca ciencia tecnologia
54772 11309318n38p18 incorporacio al diposit digital documents uab ddd del fons bernard lesfargues
ARE-52153 = 54678
Si no el trobem per identificador, fem quatre cerques i triem el títol més aproximat. Les cerques són:
- ISSN, paraula més llarga del camp d'autor, paraula més llarga del camp de títol
- ISSN, paraula més llarga del camp d'autor, segona paraula més llarga del camp de títol
- ISSN, paraula més llarga del camp de títol, segona paraula més llarga del camp de títol
- paraula més llarga del camp d'autor, paraula més llarga del camp de títol, segona paraula més llarga del camp de títol
Entre claus {} hi ha quina és la cerque ens ha portat a aquest resultat. Si la cerca no dóna cap resultat, ni surt a aquesta llista. Després triem triem el títol que més s'assembli, ex:
ARE-15119 11307064n12p238 Diagnóstico de los diferentes tipos de agresividad del perro dirigida hacia las personas
68486 11307064v25n4p226 {1130-7064+agresividad+diagnostico} hipoparatiroidismo primario idiopatico felino caso clinico
70262 11307064v12n4p238 {1130-7064+Manteca+agresividad} diagnostico diferentes tipos agresividad del perro dirigida hacia personas
70583 11307064v13n3p167 {1130-7064+Manteca+diagnostico} introduccion al diagnostico tratamiento del marcaje territorial con orina en gato
ARE-15119 = 70262
La similitud del títol és la darrera paraula. Això vol dir que en els casos que el títol no coindideix, encara que la combinació d'ISSN, volum, número i pàgina sí, no el donem per bo. Perquè si no podríem donar per bones identificacions una mica fantasioses, com aquestes:
ARE-8783 11307064v1n10p157 Nocardiosis en un perro
69871 11307064v10n3p75 {1130-7064+Ramos+nocardiosis} Nocardiosis en un perro
ARE-8783 = 69871
El problema dels títols afecta específicament a les ressenyes, ex:
ARE-37598 02102862n85p238 Naïr, S. (2005) Y vendrán... las migraciones en tiempos hostiles, Barcelona : Editorial Planeta
20747 02102862n85p238 Ressenyes
24022 02102862n86p275 {0210-2862+Benitez+migraciones} Ressenyes
No s'ha trobat cap títol coincident
Les ressenyes les intentarem detectar en una segona fase, cercant, p. ex., paraules coincidents (ex., 2/3) en el camp d'abstract del DDD.
Aquesta tasca és per demanar-vos que valideu si podem donar per bona aquestes identificacions per fer una càrrega dels identificadors de Fènix al DDD com a 035 i $9 recercauab.
El resultat serien registres com aquests, resultats de la cerca «recercauab» al DDD:
La meva idea és que en mireu tots els que vulgueu, i si algun no coindideix, l'apunteu en algun lloc. Si són pocs faria una càrrega massiva i després ja esborraríem manualment els que havíem identificat malament.
Finalment, si el sistema automàtic no ha detectat que és el mateix títol però humanament es veu que sí ho és, ja podeu editar el registre i afegir-hi la 035 corresponent ($9 recercauab $a ARE-xxx). Ex.:
ARE-13761 0211402Xn28p183 El tiempo y el deseo
928 0211402xn28p183 tiempo deseo nota sobre etica fenomenologica partir levinas
982 0211402Xn31p81 {0211-402X+Melich+tiempo} fin lo humano como educar despues del holocausto
No s'ha trobat cap títol coincident
Tasques relacionades 2 (0 obertes — 2 tancades)
FJ Actualitzat per Ferran Jorba fa més de 14 anys
- Assignat a ha canviat de nobody a Cristina Azorin
FJ Actualitzat per Ferran Jorba fa més de 14 anys
- Tipus de tasca ha canviat de Defecte a Tasca
MR Actualitzat per Marta Rial fa més de 14 anys
Aquests títols ja estan comprovats i es poden carregar. Hi ha algun error puntual que ja corregiré manualment un cop estiguin carregats:
- 0025-5610 Mathematical programming
- 0210-1025 Revista española de economía
- 0210-2862 Papers : revista de sociologia
- 0210-6124 Atlantis
- 0210-7570 Faventia : revista de filologia clàssica
- 0210-7597 Acta botanica barcinonensia
- 0211-2175 Anàlisi : quaderns de comunicació i cultura
- 0211-3481 Cuadernos de psicología = Quaderns de psicologia
- 0211-402X Enrahonar : quaderns de filosofia
- 0211-6391 Recerca musicològica
MR Actualitzat per Marta Rial fa més de 14 anys
Nous títols comprovats. Amb aquests ja està revisat tot el llistat de títols i només quedaria pendent repassar l'apartat de ressenyes.
- 0211-819X Educar
- 0212-1573 Documents d'anàlisi geogràfica
- 0212-4521 Enseñanza de las ciencias : revista de investigación y experiencias didácticas
- 0213-2397 Manuscrits : revista d'història moderna
- 0213-4039 Orsis : organismes i sistemes
- 0213-5876 Revista de Catalunya
- 0213-8409 Limnética
- 0214-0349 Item : revista de biblioteconomia i documentació
- 0214-1493 Publicacions matemàtiques
- 0214-4840 Adicciones : revista de Socidrogalcohol
- 0276-7333 Organometallics
- 0952-8733 Higher education policy
- 1098-0121 Physical review. B : Condensed matter and materials physics
- 1130-4804 Bovis : tratado de veterinaria práctica
- 1130-4863 Ovis : tratado de patología y producción ovina
- 1130-7064 Clinica Veterinaria de Pequeños Animales: revista oficial de AVEPA Asociación Veterinaria Española de Especialistas en Pequeños Animales
- 1130-8451 Porci : tratado de ganado porcino
- 1130-9318 Biblioteca informacions
- 1131-8600 Signos : teoría y práctica de la educación
- 1132-256X Catalan working papers in linguistics
- 1132-9955 Revista de derecho penal y criminología
- 1133-2751 Canis et felis
- 1133-7397 Links & letters
- 1134-9263 Treballs d'arqueologia
- 1135-9722 Locus amoenus
- 1135-9730 Quaderns d'italià
- 1136-1867 Revista PH
- 1138-3194 Aloma : revista de psicologia ciències de l'educació i de l'esport
- 1138-5790 Quaderns : revista de traducció
- 1139-8736 Estudios de lingüística del español
- 1390-2776 Revibec : Revista iberoamericana de economía ecológica
- 1434-4483 Theoretical and applied climatology
- 1479-0718 International journal of multilingualism
- 1567-1356 FEMS yeast research
- 1575-5886 BiD : textos universitaris de biblioteconomia i documentació
- 1576-2270 Ontology studies = Cuadernos de ontología
- 1578-7559 Revista tradumàtica : traducció i tecnologies de la informació i la comunicació
- 1578-8946 Athenea digital : revista de pensamiento e investigación social
- 1579-0185 Redes : revista hispana para el análisis de redes sociales
- 1695-6885 Catalan journal of linguistics
- 1696-4403 HMiC : història moderna i contemporània
- 1697-7467 Porta linguarum
- 1699-3748 Didáctica innovación y multimedia : DIM
- 1699-6712 Ciències : revista del professorat de ciències de primària i secundària
- 1708-3087 Ecology and Society
- 1885-8996 Perifèria : revista de recerca i formació en antropologia
- 1886-4805 ACE, Arquitectura, Ciudad y Entorno
- 1988-2963 1611 : revista de historia de la traducción = a journal of translation history = revista d'història de la traducció
- 1988-3366 Doletiana : revista de traducció literatura i arts
- 1989-3477 @tic, revista d'innovació educativa
- 2013-1666 Actes d'història de la ciència i de la tècnica
- 2013-6196 Bellaterra : journal of teaching and learning language and literature
FJ Actualitzat per Ferran Jorba fa més de 14 anys
- Assignat a ha canviat de Cristina Azorin a Ferran Jorba
FJ Actualitzat per Ferran Jorba fa més de 14 anys
Marta,
he carregat els identificadors a una revista que no em menciones, però que m'anava molt bé perquè té un dels primers ISSNs i és relativament petita (0214-1493 Publicacions de la Secció de Matemàtiques):
- http://ddd.uab.cat/record/29178
- http://ddd.uab.cat/search?cc=pubsecmat&p=recercauab
- http://ddd.uab.cat/search?cc=pubsecmat&p=recercauab&of=tm&ot=035,245&rg=9999
En els propers dies aniré carregant segons l'ordre de la tasca # és a dir, per ISSN.
FJ Actualitzat per Ferran Jorba fa més de 14 anys
MR Actualitzat per Marta Rial fa més de 14 anys
Ferran,
Publicacions de la Secció de Matemàtiques (0210-2978) estava en el primer grup de revistes comprovades, però veig que me la vaig saltar.
A mesura que vagis carregant les revistes corregiré els errors puntuals que vaig veure al revisar els registres.
FJ Actualitzat per Ferran Jorba fa més de 14 anys
MR Actualitzat per Marta Rial fa més de 14 anys
- Estat ha canviat de Creada a Tancada
MR Actualitzat per Marta Rial fa més de 14 anys
Ferran,
ja he corregit manualment els errors que vam comentar.
Els identificadors ARE que t'indico a continuació són de registres que no estan al DDD. Amb la detecció automàtica si que tenen un registre associat, però no és correcte:
- ARE-14564
- ARE-24581
- ARE-25095
- ARE-17971
- ARE-37620
- ARE-57864
- ARE-11209
- ARE-2364
MR Actualitzat per Marta Rial fa més de 14 anys
- Estat ha canviat de Tancada a Creada
CA Actualitzat per Cristina Azorin fa més de 13 anys
- Estat ha canviat de Creada a En curs
S'han fet pocs títols d'aquesta tasca perquè s'aprofita l'enllaç amb l'identificador de Fènix per a arreglar les revistes de la UAB en directoris, tal i com s'explica a la tasca #687
A més de la detecció automàtica, la UTP anirà fent feines d'enllaç entre el DDD i Fènix treballant sobretot en revistes que per la seva estructura dificultin l'automatització, com, per exemple, UAB Divulga.
FJ Actualitzat per Ferran Jorba fa més de 13 anys
Em sembla que, pel ritme que porto, potser sí que valdria la pena afegir aquests identificadors, independentment de la tasca #687.
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Tasca pare s'ha establert a #2447
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Data de venciment ha canviat de 05-03-2015 a 30-09-2013
- Inici s'ha suprimit (
05-03-2015)
PR Actualitzat per Pere Roca fa més de 12 anys
- Tasca pare s'ha suprimit (
#2447)
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys
- Paraula clau s'ha establert a JR
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys
- Data de venciment ha canviat de 30-09-2013 a 14-07-2014
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
- Estat ha canviat de En curs a Tancada
Via morta.
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Paraula clau s'ha suprimit (
JR)