Projecte

General

Perfil

Accions

Tasca #2920

tancat
CA FJ

Afegir el camp "tipus de format" en la sortida dels registres via OAI-DC

Tasca #2920: Afegir el camp "tipus de format" en la sortida dels registres via OAI-DC

Afegit per Cristina Azorin fa quasi 12 anys. Actualitzat fa aproximadament 10 anys.

Estat:
Tancada
Prioritat:
Urgent
Assignat a:
Categoria:
Tecnologia
Inici:
02-05-2014
Data de venciment:
Paraula clau:

Descripció

Aquesta actuació de millora ve donada pel procés de validació de Recolecta (D-Net).

Cal que els registres en Dublin Core que surten per OAi incorporin informació sobre el tipus de format dels fitxers, la informació sobre els termes a utilitzar està en aquesta pàgina:

http://www.iana.org/assignments/media-types/media-types.xhtml

Entenc que si hi ha més d'un fitxer amb tipus diferents l'etiqueta es repeteix les vegades que calgui sempre que siguin diferents.

Alguns exemples a Recercat o a altres repositoris:

- http://oai.recercat.net/request?verb=ListRecords&metadataPrefix=oai_dc&set=hdl_2072_13171

<dc:format>38 p.</dc:format>
<dc:format>236363 bytes</dc:format>
<dc:format>application/pdf</dc:format>

- RACO http://www.raco.cat/index.php/index/oai/?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:raco.cat:article/55449

- en el CERN no surt http://cds.cern.ch/oai2d?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:cds.cern.ch:5416

- Nottingham: http://eprints.nottingham.ac.uk/cgi/oai2?verb=ListRecords&metadataPrefix=oai_dc

No trobo altres que no siguin pdf, he buscat jpg però no m'ensurto, suposo que és image/jpg

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions #1

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions #2

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #3

  • Prioritat ha canviat de Normal a Urgent
  • Paraula clau s'ha establert a JR

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #4

Inicialment, jo m'estava mirant de generar-lo només quan el registre es visualitza (o s'exporta) en DC, per no haver d'afegir encara més dades (òbvies) al registre Marc21. (Personalment, em sembla un formalisme que no ajuda ni a les persones ni a les màquines, però en fi...)

La dificultat és que la generació del registre en format DC es fa en xslt (http://www.w3.org/TR/xslt), i no en sé prou per fer-hi gaires virgueries. En principi, n'hauríem de tenir prou amb l'extensió del fitxer o fitxers, i aplicant-hi un prefix al davant: application/pdf, image/jpg, etc). No descarto encara aquesta via, entre altres coses, perquè la solució seria immediata, i no implicaria reescriure els 100.000 registres del DDD.

L'altra via seria afegir el subcamp $q de la 856 (http://www.loc.gov/marc/bibliographic/bd856.html), que és exactament el lloc on aquesta informació es codifica en Marc21. Però això vol dir afegir aquesta informació a tots els registres, i la seva reindexació. Trigaríem setmanes....

Com més voltes hi dono, doncs, més veig que val la pena esforçar-nos en la primera via. Em submergeixo en buscar solucions possibles per la primera opció.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #5

Bé, ja tinc uns resultats, gràcies a aquesta entrada:

http://blog.morg.nl/2012/02/get-file-extention-in-xslt/

Ara mateix només fa l'entrada completa per als formats pdf i jpg. M'apunto aquí un lloc on hi ha la llista autoritzada: http://en.wikipedia.org/wiki/Internet_media_type

Per exemple:

Ara caldrà afinar-ho una mica, p. ex.: veure si és correcte o possible eliminar entrades de format duplicats, etc.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #6

Al final he mirat quins tipus de fitxers tenim segons https://ddd.uab.cat/usage.py?c=ddd&report=contents i m'he decidit per implementar només aquells dels que en tenim 10 o més documents, és a dir (documents en data d'avui):

  • application/pdf (129.520)
  • image/jpeg (16.878)
  • text/html (2.012)
  • audio/mpeg (486)
  • image/gif (13)
  • application/vnd.openxmlformats-officedocument.presentationml.presentation (10)

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #7

  • Estat ha canviat de Creada a Tancada

Aplicat al DDD, ex:

http://ddd.uab.cat/record/106440/export/xd

Tanco la tasca, doncs.

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #8

  • Paraula clau s'ha suprimit (JR)

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions #9

  • Categoria s'ha establert a Tecnologia
  • Estat ha canviat de Tancada a En curs

Falta:

  • reconèixer .html com a html
  • altres extensions: ppt, xls

Cal afegir-los a ~/invenio/etc/bibformat/format_templates/OAI_DC.xsl i DC.xsl

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions #10

Prova també de passar URN:ISBN a minúscula, ex:

http://ddd.uab.cat/record/48/export/xd

A veure si així no es queixa el verificador d'OpenAire:

https://guidelines.openaire.eu/en/latest/literature/field_resourceidentifier.html

O posar un info davant dels que no són http, per exemple perquè estigui content amb aquest?

https://ddd.uab.cat/record/5443/export/xd

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions #11

De moment he fet:

  • Passar el URN:ISBN i URN:ISSN a minúscules.
  • Afegir els mime-tipes per les extensions .htm, .doc, .docx, .xls, .xlsx, .ppt i .pptx.

D'extensions sempre en quedaran de penjades, per la poca quantitat, ex: https://ddd.uab.cat/usage.py?c=ddd&report=contents

De moment encara no hi he posat el info: davant dels altres identificadors.

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #12

Amb això està bé de moment, i pots tancar la tasca. El tema info ja el veurem quan parlem de tot el OpenAIRE.

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions #13

  • Estat ha canviat de En curs a Tancada
Accions

També disponible a: PDF Atom