Tasca #2920: Afegir el camp "tipus de format" en la sortida dels registres via OAI-DC - DDD - Gestor de projectes - Servei de Biblioteques de la UAB

Accions

Copiar enllaç

Tasca #2920

tancat

CA FJ

Afegir el camp "tipus de format" en la sortida dels registres via OAI-DC

Tasca #2920: Afegir el camp "tipus de format" en la sortida dels registres via OAI-DC

Afegit per Cristina Azorin fa quasi 12 anys. Actualitzat fa aproximadament 10 anys.

Estat:

Tancada

Prioritat:

Urgent

Assignat a:

Ferran Jorba

Categoria:

Tecnologia

Temàtica prevista:

Accions de milllora de la qualitat

Inici:

02-05-2014

Data de venciment:

Paraula clau:

Descripció

Aquesta actuació de millora ve donada pel procés de validació de Recolecta (D-Net).

Cal que els registres en Dublin Core que surten per OAi incorporin informació sobre el tipus de format dels fitxers, la informació sobre els termes a utilitzar està en aquesta pàgina:

http://www.iana.org/assignments/media-types/media-types.xhtml

Entenc que si hi ha més d'un fitxer amb tipus diferents l'etiqueta es repeteix les vegades que calgui sempre que siguin diferents.

Alguns exemples a Recercat o a altres repositoris:

- http://oai.recercat.net/request?verb=ListRecords&metadataPrefix=oai_dc&set=hdl_2072_13171

<dc:format>38 p.</dc:format>
<dc:format>236363 bytes</dc:format>
<dc:format>application/pdf</dc:format>

- RACO http://www.raco.cat/index.php/index/oai/?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:raco.cat:article/55449

- en el CERN no surt http://cds.cern.ch/oai2d?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:cds.cern.ch:5416

- Nottingham: http://eprints.nottingham.ac.uk/cgi/oai2?verb=ListRecords&metadataPrefix=oai_dc

No trobo altres que no siguin pdf, he buscat jpg però no m'ensurto, suposo que és image/jpg

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#1

S'ha actualitzat Descripció (diferències)

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#2

S'ha actualitzat Descripció (diferències)

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#3

Prioritat ha canviat de Normal a Urgent
Paraula clau s'ha establert a JR

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#4

Inicialment, jo m'estava mirant de generar-lo només quan el registre es visualitza (o s'exporta) en DC, per no haver d'afegir encara més dades (òbvies) al registre Marc21. (Personalment, em sembla un formalisme que no ajuda ni a les persones ni a les màquines, però en fi...)

La dificultat és que la generació del registre en format DC es fa en xslt (http://www.w3.org/TR/xslt), i no en sé prou per fer-hi gaires virgueries. En principi, n'hauríem de tenir prou amb l'extensió del fitxer o fitxers, i aplicant-hi un prefix al davant: application/pdf, image/jpg, etc). No descarto encara aquesta via, entre altres coses, perquè la solució seria immediata, i no implicaria reescriure els 100.000 registres del DDD.

L'altra via seria afegir el subcamp $q de la 856 (http://www.loc.gov/marc/bibliographic/bd856.html), que és exactament el lloc on aquesta informació es codifica en Marc21. Però això vol dir afegir aquesta informació a tots els registres, i la seva reindexació. Trigaríem setmanes....

Com més voltes hi dono, doncs, més veig que val la pena esforçar-nos en la primera via. Em submergeixo en buscar solucions possibles per la primera opció.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#5

Bé, ja tinc uns resultats, gràcies a aquesta entrada:

http://blog.morg.nl/2012/02/get-file-extention-in-xslt/

Ara mateix només fa l'entrada completa per als formats pdf i jpg. M'apunto aquí un lloc on hi ha la llista autoritzada: http://en.wikipedia.org/wiki/Internet_media_type

Per exemple:

Ara caldrà afinar-ho una mica, p. ex.: veure si és correcte o possible eliminar entrades de format duplicats, etc.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#6

Al final he mirat quins tipus de fitxers tenim segons https://ddd.uab.cat/usage.py?c=ddd&report=contents i m'he decidit per implementar només aquells dels que en tenim 10 o més documents, és a dir (documents en data d'avui):

application/pdf (129.520)
image/jpeg (16.878)
text/html (2.012)
audio/mpeg (486)
image/gif (13)
application/vnd.openxmlformats-officedocument.presentationml.presentation (10)

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#7

Estat ha canviat de Creada a Tancada

Aplicat al DDD, ex:

http://ddd.uab.cat/record/106440/export/xd

Tanco la tasca, doncs.

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#8

Paraula clau s'ha suprimit (JR)

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#9

Categoria s'ha establert a Tecnologia
Estat ha canviat de Tancada a En curs

Falta:

reconèixer .html com a html
altres extensions: ppt, xls

Cal afegir-los a ~/invenio/etc/bibformat/format_templates/OAI_DC.xsl i DC.xsl

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#10

Prova també de passar URN:ISBN a minúscula, ex:

http://ddd.uab.cat/record/48/export/xd

A veure si així no es queixa el verificador d'OpenAire:

https://guidelines.openaire.eu/en/latest/literature/field_resourceidentifier.html

O posar un info davant dels que no són http, per exemple perquè estigui content amb aquest?

https://ddd.uab.cat/record/5443/export/xd

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#11

De moment he fet:

Passar el URN:ISBN i URN:ISSN a minúscules.
Afegir els mime-tipes per les extensions .htm, .doc, .docx, .xls, .xlsx, .ppt i .pptx.

D'extensions sempre en quedaran de penjades, per la poca quantitat, ex: https://ddd.uab.cat/usage.py?c=ddd&report=contents

De moment encara no hi he posat el info: davant dels altres identificadors.

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions
Copiar enllaç
#12

Amb això està bé de moment, i pots tancar la tasca. El tema info ja el veurem quan parlem de tot el OpenAIRE.

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#13

Estat ha canviat de En curs a Tancada

Accions

Copiar enllaç

També disponible a: PDF Atom

Projecte

General

Perfil

DDD

Consultes personalitzades

Tasca #2920

Afegir el camp "tipus de format" en la sortida dels registres via OAI-DC

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#1

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#2

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#3

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#4

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#5

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#6

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#7

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#8

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#9

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#10

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#11

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions
Copiar enllaç
#12

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#13

Projecte

General

Perfil

DDD

Consultes personalitzades

Tasca #2920

Afegir el camp "tipus de format" en la sortida dels registres via OAI-DC

CA Actualitzat per Cristina Azorin fa quasi 12 anys AccionsCopiar enllaç #1

CA Actualitzat per Cristina Azorin fa quasi 12 anys AccionsCopiar enllaç #2

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #3

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #4

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #5

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #6

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #7

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #8

FJ Actualitzat per Ferran Jorba fa més de 10 anys AccionsCopiar enllaç #9

FJ Actualitzat per Ferran Jorba fa més de 10 anys AccionsCopiar enllaç #10

FJ Actualitzat per Ferran Jorba fa més de 10 anys AccionsCopiar enllaç #11

CA Actualitzat per Cristina Azorin fa més de 10 anys AccionsCopiar enllaç #12

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys AccionsCopiar enllaç #13

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#1

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#2

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#3

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#4

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#5

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#6

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#7

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#8

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#9

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#10

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions
Copiar enllaç
#11

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions
Copiar enllaç
#12

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions
Copiar enllaç
#13