Tasca #767
tancatConfigurar l'extracció de referències bibliogràfiques del text complet
Descripció
Aquesta tasca és una continuació de la # i hi detallarem què cal i com funciona l'extracció de referències bibliogràfiques del text complet que incorpora Invenio.
No hi ha documentació d'usuari final d'aquesta eina, però es pot consultar una mica de què va a través d'aquests documents:
- http://cdsware.cern.ch/repo/?p=cds-invenio.git;a=blob;f=modules/bibedit/bin/refextract.in;hb=HEAD
- http://cdsware.cern.ch/repo/?p=cds-invenio.git;a=blob;f=modules/bibedit/lib/refextract_config.py;hb=HEAD
- http://cdsware.cern.ch/repo/?p=cds-invenio.git;a=blob;f=modules/bibedit/lib/refextract.py;hb=HEAD
És a dir, que té tres parts principals:
- Extracció del text del PDF i localitzar allò que sembli una referència bibliogràfica.
- Normalitzar la cita, sobretot del nom o abreviatura de la revista (ex: http://cdsware.cern.ch/repo/?p=cds-invenio.git;a=blob;f=modules/bibedit/etc/refextract-journal-titles.kb;hb=HEAD)
- Guardar aquestes referències en etiquetes escollides del registre MARC (ex: http://invenio-demo.cern.ch/record/81/references i http://invenio-demo.cern.ch/record/81/export/hm)
Si el volem utilitzar o provar, en el nostre cas hem de fer algunes adaptacions i hem de prendre algunes decissions:
Degut a que nosaltres referenciem el text complet via URLs a la 856$u (ComVoleuLesURLsFinals) l'eina no funcionaria sola, perquè la referència al text complet l'espera així:
$ refextract --help
Usage: refextract [options] recid:file1 [recid:file2 ...]
refextract tries to extract the reference section from a full-text document.
Extracted reference lines are processed and any recognised citations are
marked up using MARC XML. Results are output to the standard output stream.
Options:
-h, --help print this help
-V, --version print version information
-v, --verbose verbosity level (0=mute, 1=default info msg,
2=display reference section extraction analysis,
3=display reference line citation processing analysis,
9=max information)
-r, --output-raw-refs
output raw references, as extracted from the document.
No MARC XML mark-up - just each extracted line, prefixed
by the recid of the document that it came from.
-x, --xmlfile
write xml output to a file rather than standard output.
-d, --dictfile
write statistics about all matched title abbreviations
(i.e. LHS terms in the titles knowledge base) to a file.
-z, --raw-references
treat the input file as pure references. i.e. skip the stage
of trying to locate the reference section within a document
and instead move to the stage of recognition and
standardisation of citations within lines.
Example: refextract 499:thesis.pdf
D'altra banda, segur que hem de decidir el punt 3, i el segon diria que ja ho veurem.
Assigno aquesta tasca a la Cristina però és per treballar-la conjuntament.
CA Actualitzat per Cristina Azorin fa més de 10 anys
- Estat ha canviat de Creada a Tancada
De moment aparquem el tema. No és prioritari si ja apliquem altres índexs de cites.
CA Actualitzat per Cristina Azorin fa més de 10 anys
- Categoria s'ha establert a Tecnologia