Tasca #2920
tancatAfegir el camp "tipus de format" en la sortida dels registres via OAI-DC
Descripció
Aquesta actuació de millora ve donada pel procés de validació de Recolecta (D-Net).
Cal que els registres en Dublin Core que surten per OAi incorporin informació sobre el tipus de format dels fitxers, la informació sobre els termes a utilitzar està en aquesta pàgina:
http://www.iana.org/assignments/media-types/media-types.xhtml
Entenc que si hi ha més d'un fitxer amb tipus diferents l'etiqueta es repeteix les vegades que calgui sempre que siguin diferents.
Alguns exemples a Recercat o a altres repositoris:
- http://oai.recercat.net/request?verb=ListRecords&metadataPrefix=oai_dc&set=hdl_2072_13171
<dc:format>38 p.</dc:format>
<dc:format>236363 bytes</dc:format>
<dc:format>application/pdf</dc:format>
- en el CERN no surt http://cds.cern.ch/oai2d?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:cds.cern.ch:5416
- Nottingham: http://eprints.nottingham.ac.uk/cgi/oai2?verb=ListRecords&metadataPrefix=oai_dc
No trobo altres que no siguin pdf, he buscat jpg però no m'ensurto, suposo que és image/jpg
CA Actualitzat per Cristina Azorin fa quasi 12 anys
- S'ha actualitzat Descripció (diferències)
CA Actualitzat per Cristina Azorin fa quasi 12 anys
- S'ha actualitzat Descripció (diferències)
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Prioritat ha canviat de Normal a Urgent
- Paraula clau s'ha establert a JR
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Inicialment, jo m'estava mirant de generar-lo només quan el registre es visualitza (o s'exporta) en DC, per no haver d'afegir encara més dades (òbvies) al registre Marc21. (Personalment, em sembla un formalisme que no ajuda ni a les persones ni a les màquines, però en fi...)
La dificultat és que la generació del registre en format DC es fa en xslt (http://www.w3.org/TR/xslt), i no en sé prou per fer-hi gaires virgueries. En principi, n'hauríem de tenir prou amb l'extensió del fitxer o fitxers, i aplicant-hi un prefix al davant: application/pdf, image/jpg, etc). No descarto encara aquesta via, entre altres coses, perquè la solució seria immediata, i no implicaria reescriure els 100.000 registres del DDD.
L'altra via seria afegir el subcamp $q de la 856 (http://www.loc.gov/marc/bibliographic/bd856.html), que és exactament el lloc on aquesta informació es codifica en Marc21. Però això vol dir afegir aquesta informació a tots els registres, i la seva reindexació. Trigaríem setmanes....
Com més voltes hi dono, doncs, més veig que val la pena esforçar-nos en la primera via. Em submergeixo en buscar solucions possibles per la primera opció.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Bé, ja tinc uns resultats, gràcies a aquesta entrada:
http://blog.morg.nl/2012/02/get-file-extention-in-xslt/
Ara mateix només fa l'entrada completa per als formats pdf i jpg. M'apunto aquí un lloc on hi ha la llista autoritzada: http://en.wikipedia.org/wiki/Internet_media_type
Per exemple:
- http://ddd-test.uab.cat:2000/record/7422/export/xd
- http://ddd-test.uab.cat:2000/record/102333/export/xd
- http://ddd-test.uab.cat:2000/record/72359/export/xd
Ara caldrà afinar-ho una mica, p. ex.: veure si és correcte o possible eliminar entrades de format duplicats, etc.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Al final he mirat quins tipus de fitxers tenim segons https://ddd.uab.cat/usage.py?c=ddd&report=contents i m'he decidit per implementar només aquells dels que en tenim 10 o més documents, és a dir (documents en data d'avui):
- application/pdf (129.520)
- image/jpeg (16.878)
- text/html (2.012)
- audio/mpeg (486)
- image/gif (13)
- application/vnd.openxmlformats-officedocument.presentationml.presentation (10)
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Estat ha canviat de Creada a Tancada
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Paraula clau s'ha suprimit (
JR)
FJ Actualitzat per Ferran Jorba fa més de 10 anys
- Categoria s'ha establert a Tecnologia
- Estat ha canviat de Tancada a En curs
Falta:
- reconèixer .html com a html
- altres extensions: ppt, xls
Cal afegir-los a ~/invenio/etc/bibformat/format_templates/OAI_DC.xsl i DC.xsl
FJ Actualitzat per Ferran Jorba fa més de 10 anys
Prova també de passar URN:ISBN a minúscula, ex:
http://ddd.uab.cat/record/48/export/xd
A veure si així no es queixa el verificador d'OpenAire:
https://guidelines.openaire.eu/en/latest/literature/field_resourceidentifier.html
O posar un info davant dels que no són http, per exemple perquè estigui content amb aquest?
FJ Actualitzat per Ferran Jorba fa més de 10 anys
De moment he fet:
- Passar el URN:ISBN i URN:ISSN a minúscules.
- Afegir els mime-tipes per les extensions .htm, .doc, .docx, .xls, .xlsx, .ppt i .pptx.
D'extensions sempre en quedaran de penjades, per la poca quantitat, ex: https://ddd.uab.cat/usage.py?c=ddd&report=contents
De moment encara no hi he posat el info: davant dels altres identificadors.
CA Actualitzat per Cristina Azorin fa més de 10 anys
Amb això està bé de moment, i pots tancar la tasca. El tema info ja el veurem quan parlem de tot el OpenAIRE.
CA Actualitzat per Cristina Azorin fa aproximadament 10 anys
- Estat ha canviat de En curs a Tancada