Projecte

General

Perfil

Accions

Tasca #1245

tancat
FJ FJ

Fènix. Repassar la detecció automàtica d'articles

Tasca #1245: Fènix. Repassar la detecció automàtica d'articles

Afegit per Ferran Jorba fa més de 14 anys. Actualitzat fa més de 11 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
-
Inici:
Data de venciment:
14-07-2014
Paraula clau:

Descripció

El el directori http://ddd-test.uab.cat:2000/fenix/ hi ha uns quants fitxers relacionats amb la detecció i càrrega d'articles de Fènix al DDD.

Una de les tasques que cal fer és avaluar si la detecció automàtica d'articles ja entrats al DDD és vàlida. El fitxer és aquest:

http://ddd-test.uab.cat:2000/fenix/articles.ddd

Al final de tot hi ha unes estadístiques que també val la pena mirar.

La possible identificació la faig d'aquesta manera.

Per a cada article, tant de Fènix com del DDD construiexo un identificador del tipus ISSNvXnYpZ. En alguns casos, en el DDD ja existeix com a 035 i a la llarga tindrà un $9 articleid, però això encara no ho és sempre.

Per a cada article de Fènix, miro en primer lloc si forma part d'una revista de la que tenim algun article al DDD. Si d'aquella revista no tenim cap article al DDD, no miro res més. Article no trobat i punt final. De fet, això redueix molt les cerques. A l'estiu del 2011 les estadístiques del final del fitxer són aquestes:

  • 64 Revistes a Fènix de les que hi tenim algun article al DDD (per ISSN)
  • 10010 Revistes a Fènix de les que no tenim cap article al DDD (per ISSN)
  • 2352 Articles que hem cercat al DDD perquè hi tenim algun article d'aquesta revista (per ISSN)
  • 46774 Articles que ni hem cercat al DDD perquè no hi tenim cap article d'aquesta revista (per ISSN)

Si és candidat a ser trobat, miro si tenim l'identificador ISSNvXnYpZ, tolerant màxim una diferència (un caràcter de més, de menys o canviat). Si coincideix, miro que 2/3 de les paraules dels títols (havent-li eliminat els accents, passat a minúscula i treient partícules) també coincideixin. Si tot plegat coindideix, es dona per bo. El següent és un cas de cerca d'article aproximada d'identificador (canvi de Volum per Número, tot el demés igual) i títol similar (la darrera pararula està escrita diferent, però 2/3 paraules sí són iguals:

 ARE-57511 11385790v13p77 Anna Murià, traductora (in)visible 
      5602 11385790n13p77 anna muria traductora invisible
 ARE-57511 = 5602

L'identificador que comença per ARE és de Fènix (ARE és la sigla d'Article de REvista), i el número sol és l'identificador del DDD. La primera línia sempre és la informació de Fènix, la segona i següents, si n'hi ha més d'una, les possibles troballes al DDD, i la darrera, que té el signe =, si automàticament hem donat per bona la coindidència. En aquest cas, que ARE-57511 coincideix amb http://ddd.uab.cat/record/5602

De vegades, si l'identificador és aproximat, es cerquen totes les aproximacions amb màxim una diferència i es tria l'article en el que el títol s'assembli més, ex:

 ARE-52153 11309318n38p11 El capital social en la biblioteca de humanidades 
     54678 11309318n38p12 El capital social en la Biblioteca de Humanidades
     54711 11309318n38p21 arxius josep maria millas vallicrosa eduard millas vendrell biblioteca ciencia tecnologia
     54772 11309318n38p18 incorporacio al diposit digital documents uab ddd del fons bernard lesfargues
 ARE-52153 = 54678

Si no el trobem per identificador, fem quatre cerques i triem el títol més aproximat. Les cerques són:

  • ISSN, paraula més llarga del camp d'autor, paraula més llarga del camp de títol
  • ISSN, paraula més llarga del camp d'autor, segona paraula més llarga del camp de títol
  • ISSN, paraula més llarga del camp de títol, segona paraula més llarga del camp de títol
  • paraula més llarga del camp d'autor, paraula més llarga del camp de títol, segona paraula més llarga del camp de títol

Entre claus {} hi ha quina és la cerque ens ha portat a aquest resultat. Si la cerca no dóna cap resultat, ni surt a aquesta llista. Després triem triem el títol que més s'assembli, ex:

 ARE-15119 11307064n12p238 Diagnóstico de los diferentes tipos de agresividad del perro dirigida hacia las personas 
     68486 11307064v25n4p226 {1130-7064+agresividad+diagnostico} hipoparatiroidismo primario idiopatico felino caso clinico
     70262 11307064v12n4p238 {1130-7064+Manteca+agresividad} diagnostico diferentes tipos agresividad del perro dirigida hacia personas
     70583 11307064v13n3p167 {1130-7064+Manteca+diagnostico} introduccion al diagnostico tratamiento del marcaje territorial con orina en gato
 ARE-15119 = 70262

La similitud del títol és la darrera paraula. Això vol dir que en els casos que el títol no coindideix, encara que la combinació d'ISSN, volum, número i pàgina sí, no el donem per bo. Perquè si no podríem donar per bones identificacions una mica fantasioses, com aquestes:

  ARE-8783 11307064v1n10p157 Nocardiosis en un perro 
     69871 11307064v10n3p75 {1130-7064+Ramos+nocardiosis} Nocardiosis en un perro
  ARE-8783 = 69871

El problema dels títols afecta específicament a les ressenyes, ex:

 ARE-37598 02102862n85p238 Naïr, S. (2005) Y vendrán... las migraciones en tiempos hostiles, Barcelona : Editorial Planeta
     20747 02102862n85p238 Ressenyes
     24022 02102862n86p275 {0210-2862+Benitez+migraciones} Ressenyes
           No s'ha trobat cap títol coincident 

Les ressenyes les intentarem detectar en una segona fase, cercant, p. ex., paraules coincidents (ex., 2/3) en el camp d'abstract del DDD.

Aquesta tasca és per demanar-vos que valideu si podem donar per bona aquestes identificacions per fer una càrrega dels identificadors de Fènix al DDD com a 035 i $9 recercauab.

El resultat serien registres com aquests, resultats de la cerca «recercauab» al DDD:

La meva idea és que en mireu tots els que vulgueu, i si algun no coindideix, l'apunteu en algun lloc. Si són pocs faria una càrrega massiva i després ja esborraríem manualment els que havíem identificat malament.

Finalment, si el sistema automàtic no ha detectat que és el mateix títol però humanament es veu que sí ho és, ja podeu editar el registre i afegir-hi la 035 corresponent ($9 recercauab $a ARE-xxx). Ex.:

 ARE-13761 0211402Xn28p183 El tiempo y el deseo 
       928 0211402xn28p183 tiempo deseo nota sobre etica fenomenologica partir levinas
       982 0211402Xn31p81 {0211-402X+Melich+tiempo} fin lo humano como educar despues del holocausto
           No s'ha trobat cap títol coincident 

Tasques relacionades 2 (0 obertes2 tancades)

relacionat amb DDD - Tasca #2218: Cal el $q de la 773?TancadaFerran Jorba21-03-2013Accions
relacionat amb DDD - Tasca #687: Separar els articles de revista en directoris, un per númeroTancadaFerran JorbaAccions

FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #1

  • Assignat a ha canviat de nobody a Cristina Azorin

FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #2

  • Tipus de tasca ha canviat de Defecte a Tasca

MR Actualitzat per Marta Rial fa més de 14 anys Accions #3

Aquests títols ja estan comprovats i es poden carregar. Hi ha algun error puntual que ja corregiré manualment un cop estiguin carregats:

  • 0025-5610 Mathematical programming
  • 0210-1025 Revista española de economía
  • 0210-2862 Papers : revista de sociologia
  • 0210-6124 Atlantis
  • 0210-7570 Faventia : revista de filologia clàssica
  • 0210-7597 Acta botanica barcinonensia
  • 0211-2175 Anàlisi : quaderns de comunicació i cultura
  • 0211-3481 Cuadernos de psicología = Quaderns de psicologia
  • 0211-402X Enrahonar : quaderns de filosofia
  • 0211-6391 Recerca musicològica

MR Actualitzat per Marta Rial fa més de 14 anys Accions #4

Nous títols comprovats. Amb aquests ja està revisat tot el llistat de títols i només quedaria pendent repassar l'apartat de ressenyes.

  • 0211-819X Educar
  • 0212-1573 Documents d'anàlisi geogràfica
  • 0212-4521 Enseñanza de las ciencias : revista de investigación y experiencias didácticas
  • 0213-2397 Manuscrits : revista d'història moderna
  • 0213-4039 Orsis : organismes i sistemes
  • 0213-5876 Revista de Catalunya
  • 0213-8409 Limnética
  • 0214-0349 Item : revista de biblioteconomia i documentació
  • 0214-1493 Publicacions matemàtiques
  • 0214-4840 Adicciones : revista de Socidrogalcohol
  • 0276-7333 Organometallics
  • 0952-8733 Higher education policy
  • 1098-0121 Physical review. B : Condensed matter and materials physics
  • 1130-4804 Bovis : tratado de veterinaria práctica
  • 1130-4863 Ovis : tratado de patología y producción ovina
  • 1130-7064 Clinica Veterinaria de Pequeños Animales: revista oficial de AVEPA Asociación Veterinaria Española de Especialistas en Pequeños Animales
  • 1130-8451 Porci : tratado de ganado porcino
  • 1130-9318 Biblioteca informacions
  • 1131-8600 Signos : teoría y práctica de la educación
  • 1132-256X Catalan working papers in linguistics
  • 1132-9955 Revista de derecho penal y criminología
  • 1133-2751 Canis et felis
  • 1133-7397 Links & letters
  • 1134-9263 Treballs d'arqueologia
  • 1135-9722 Locus amoenus
  • 1135-9730 Quaderns d'italià
  • 1136-1867 Revista PH
  • 1138-3194 Aloma : revista de psicologia ciències de l'educació i de l'esport
  • 1138-5790 Quaderns : revista de traducció
  • 1139-8736 Estudios de lingüística del español
  • 1390-2776 Revibec : Revista iberoamericana de economía ecológica
  • 1434-4483 Theoretical and applied climatology
  • 1479-0718 International journal of multilingualism
  • 1567-1356 FEMS yeast research
  • 1575-5886 BiD : textos universitaris de biblioteconomia i documentació
  • 1576-2270 Ontology studies = Cuadernos de ontología
  • 1578-7559 Revista tradumàtica : traducció i tecnologies de la informació i la comunicació
  • 1578-8946 Athenea digital : revista de pensamiento e investigación social
  • 1579-0185 Redes : revista hispana para el análisis de redes sociales
  • 1695-6885 Catalan journal of linguistics
  • 1696-4403 HMiC : història moderna i contemporània
  • 1697-7467 Porta linguarum
  • 1699-3748 Didáctica innovación y multimedia : DIM
  • 1699-6712 Ciències : revista del professorat de ciències de primària i secundària
  • 1708-3087 Ecology and Society
  • 1885-8996 Perifèria : revista de recerca i formació en antropologia
  • 1886-4805 ACE, Arquitectura, Ciudad y Entorno
  • 1988-2963 1611 : revista de historia de la traducción = a journal of translation history = revista d'història de la traducció
  • 1988-3366 Doletiana : revista de traducció literatura i arts
  • 1989-3477 @tic, revista d'innovació educativa
  • 2013-1666 Actes d'història de la ciència i de la tècnica
  • 2013-6196 Bellaterra : journal of teaching and learning language and literature

FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #5

  • Assignat a ha canviat de Cristina Azorin a Ferran Jorba

FJ Actualitzat per Ferran Jorba fa més de 14 anys Accions #6

Marta,

he carregat els identificadors a una revista que no em menciones, però que m'anava molt bé perquè té un dels primers ISSNs i és relativament petita (0214-1493 Publicacions de la Secció de Matemàtiques):

En els propers dies aniré carregant segons l'ordre de la tasca # és a dir, per ISSN.

MR Actualitzat per Marta Rial fa més de 14 anys Accions #8

Ferran,

Publicacions de la Secció de Matemàtiques (0210-2978) estava en el primer grup de revistes comprovades, però veig que me la vaig saltar.

A mesura que vagis carregant les revistes corregiré els errors puntuals que vaig veure al revisar els registres.

MR Actualitzat per Marta Rial fa més de 14 anys Accions #10

  • Estat ha canviat de Creada a Tancada

MR Actualitzat per Marta Rial fa més de 14 anys Accions #11

Ferran,

ja he corregit manualment els errors que vam comentar.
Els identificadors ARE que t'indico a continuació són de registres que no estan al DDD. Amb la detecció automàtica si que tenen un registre associat, però no és correcte:

  • ARE-14564
  • ARE-24581
  • ARE-25095
  • ARE-17971
  • ARE-37620
  • ARE-57864
  • ARE-11209
  • ARE-2364

MR Actualitzat per Marta Rial fa més de 14 anys Accions #12

  • Estat ha canviat de Tancada a Creada

CA Actualitzat per Cristina Azorin fa més de 13 anys Accions #13

  • Estat ha canviat de Creada a En curs

S'han fet pocs títols d'aquesta tasca perquè s'aprofita l'enllaç amb l'identificador de Fènix per a arreglar les revistes de la UAB en directoris, tal i com s'explica a la tasca #687

A més de la detecció automàtica, la UTP anirà fent feines d'enllaç entre el DDD i Fènix treballant sobretot en revistes que per la seva estructura dificultin l'automatització, com, per exemple, UAB Divulga.

FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #14

Em sembla que, pel ritme que porto, potser sí que valdria la pena afegir aquests identificadors, independentment de la tasca #687.

FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #15

  • Tasca pare s'ha establert a #2447

FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #16

  • Data de venciment ha canviat de 05-03-2015 a 30-09-2013
  • Inici s'ha suprimit (05-03-2015)

PR Actualitzat per Pere Roca fa més de 12 anys Accions #17

  • Tasca pare s'ha suprimit (#2447)

CA Actualitzat per Cristina Azorin fa aproximadament 12 anys Accions #18

  • Paraula clau s'ha establert a JR

CA Actualitzat per Cristina Azorin fa aproximadament 12 anys Accions #19

  • Data de venciment ha canviat de 30-09-2013 a 14-07-2014

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions #20

  • Estat ha canviat de En curs a Tancada

Via morta.

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #21

  • Paraula clau s'ha suprimit (JR)
Accions

També disponible a: PDF Atom