Projecte

General

Perfil

Accions

Tasca #767

tancat
FJ CA

Configurar l'extracció de referències bibliogràfiques del text complet

Tasca #767: Configurar l'extracció de referències bibliogràfiques del text complet

Afegit per Ferran Jorba fa aproximadament 16 anys. Actualitzat fa més de 10 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Tecnologia
Inici:
Data de venciment:
Paraula clau:

Descripció

Aquesta tasca és una continuació de la # i hi detallarem què cal i com funciona l'extracció de referències bibliogràfiques del text complet que incorpora Invenio.

No hi ha documentació d'usuari final d'aquesta eina, però es pot consultar una mica de què va a través d'aquests documents:

És a dir, que té tres parts principals:

  1. Extracció del text del PDF i localitzar allò que sembli una referència bibliogràfica.
  2. Normalitzar la cita, sobretot del nom o abreviatura de la revista (ex: http://cdsware.cern.ch/repo/?p=cds-invenio.git;a=blob;f=modules/bibedit/etc/refextract-journal-titles.kb;hb=HEAD)
  3. Guardar aquestes referències en etiquetes escollides del registre MARC (ex: http://invenio-demo.cern.ch/record/81/references i http://invenio-demo.cern.ch/record/81/export/hm)

Si el volem utilitzar o provar, en el nostre cas hem de fer algunes adaptacions i hem de prendre algunes decissions:

Degut a que nosaltres referenciem el text complet via URLs a la 856$u (ComVoleuLesURLsFinals) l'eina no funcionaria sola, perquè la referència al text complet l'espera així:


$ refextract --help

  Usage: refextract [options] recid:file1 [recid:file2 ...]

  refextract tries to extract the reference section from a full-text document.
  Extracted reference lines are processed and any recognised citations are
  marked up using MARC XML. Results are output to the standard output stream.

  Options:

   -h, --help     print this help
   -V, --version  print version information
   -v, --verbose  verbosity level (0=mute, 1=default info msg,
              2=display reference section extraction analysis,
                  3=display reference line citation processing analysis,
              9=max information)

   -r, --output-raw-refs
                  output raw references, as extracted from the document.
                  No MARC XML mark-up - just each extracted line, prefixed
                  by the recid of the document that it came from.

   -x, --xmlfile
                  write xml output to a file rather than standard output.

   -d, --dictfile
                  write statistics about all matched title abbreviations
                  (i.e. LHS terms in the titles knowledge base) to a file.

   -z, --raw-references
                  treat the input file as pure references. i.e. skip the stage
                  of trying to locate the reference section within a document
                  and instead move to the stage of recognition and
                  standardisation of citations within lines.

  Example: refextract 499:thesis.pdf

D'altra banda, segur que hem de decidir el punt 3, i el segon diria que ja ho veurem.

Assigno aquesta tasca a la Cristina però és per treballar-la conjuntament.

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #1

  • Estat ha canviat de Creada a Tancada

De moment aparquem el tema. No és prioritari si ja apliquem altres índexs de cites.

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #2

  • Categoria s'ha establert a Tecnologia
Accions

També disponible a: PDF Atom