Projecte

General

Perfil

Accions

Tasca #1492

tancat
CA FJ

Implementació del format ESE seguint les especificacions del model EDM (Europeana)

Tasca #1492: Implementació del format ESE seguint les especificacions del model EDM (Europeana)

Afegit per Cristina Azorin fa quasi 14 anys. Actualitzat fa més de 13 anys.

Estat:
Tancada
Prioritat:
Urgent
Assignat a:
Categoria:
-
Inici:
01-10-2012
Data de venciment:
31-10-2012
Paraula clau:

Descripció

Per als requeriments tècnics de metadades:

Europeana requeriments tècnics

http://pro.europeana.eu/technical-requirements

On trobem:

Documentació EDM

http://pro.europeana.eu/edm-documentation

Sobre el tema de SKOS he trobat:

María Luisa Martínez-Conde / Subdirección General de Coordinación Bibliotecaria / Ministerio de Cultura

La Subdirección General de Coordinación Bibliotecaria ha puesto en producción un registro CKAN (Comprehensive Knowledge Archive Network), que se encuentra en http://id.sgcb.mcu.es con los 17.323 términos que conforman la Lista de Encabezamientos de Materia para Bibliotecas Públicas a la estructura SKOS (Simple Knowledge Organization System). Para ello, se ha llevado a cabo una codificación conforme al namespace de SKOS de todos los términos, tanto admitidos como no admitidos, así como los relacionados; de materia y topográficos; subencabezamientos de materia y topográficos, subencabezamientos cronológicos y subencabezamientos de forma.

La base de datos puede consultarse a través de una interfaz web y, en sí misma, no conduce a ningún registro bibliográfico, pues en realidad y desde un punto de vista funcional, se asemeja más a un fichero de autoridades que a un catálogo bibliográfico. Será posteriormente, cuando los registros se hayan vinculado bien directamente, bien indirectamente por medio de CoolURIs que aparecerán recogidas en el campo 024 del formato MARC 21 (esta es la recomendación del Ministerio de Cultura) cuando la navegación mediante vínculos será verdaderamente posible. El Ministerio de Cultura ya ha establecido esta vinculación con la Biblioteca Virtual del Patrimonio Bibliográfico y pronto será visible la potencia y la flexibilidad de este conjunto de datos vinculados.

Se ha establecido una vinculación con los Library of Congress Subject Headings, mediante la etiqueta skos:closeMatch, lo que supone una primera muestra de la capacidad de vincular unos conjuntos de información con otros. Próximamente se llevará a cabo una acción similar con listas de encabezamientos de materia en otras lenguas y se dará especial relevancia a la vinculación con los encabezamientos de materia en las distintas lenguas oficiales.

Los registros tienen, al tratarse de SKOS, una estructura RDF (Resource Description Framework), aunque no están almacenados internamente así y conviene recordar que los namespace de RDF y SKOS, junto con los de OAI-ORE y Dublin Core, son los cuatro elementos constituyentes del Europeana Data Model con el que se está construyendo en la actualidad la base de datos Europeana, cuyo proyecto piloto Europeana Linked Open Data http://version1.europeana.eu/web/lod/, que consta de 3,5 millones de registros, se ha iniciado recientemente y al que ya contribuye Hispana con más de un millón y medio de registros de treinta proveedores de datos.

Para la consulta se ha utilizado una herramienta denominada Virtuoso, de código abierto, y los datos RDF pueden presentarse en JSON, N-Triples, N3/Turtle y XML.

De moment, veient la complexitat, diria que podem exportar en format ESE sense matèries :·))


Fitxers

Mapeig_ESE.pdf (339 KB) Mapeig_ESE.pdf Mapeig enviat per la Sandra Reoyo i revisat per la BC Cristina Azorin, 10-04-2012 10:19
diagnostic_mcu.jpg (77.2 KB) diagnostic_mcu.jpg Ferran Jorba, 03-05-2012 14:58
About_the_xml_schema_3.4.doc (65.5 KB) About_the_xml_schema_3.4.doc Explicacions sobre l'esquema XML (document enviat per la M. Luisa Martínez Conde) Ferran Jorba, 14-05-2012 15:43
UAB_160512_corr.xml (1.24 KB) UAB_160512_corr.xml Registre del DDD en format ESE corregit pel Ministerio Ferran Jorba, 22-05-2012 10:55
europeana_rights_guidelines.pdf (484 KB) europeana_rights_guidelines.pdf Ferran Jorba, 22-05-2012 16:58

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #2

  • Prioritat ha canviat de Alta a Urgent

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #3

En el DDD de proves ja apareix l'ese a la llista dels ListMetadataFormats:

http://ddd-test.uab.cat:2000/oai2d?verb=ListMetadataFormats

Els valors de metadataPrefix i metadataNamespace els he copiat de les referències que he trobat en el document del CBUC i a cop de Google.

He seguit sobretot aquests exemples:

http://net7sviluppo.com/trac/talia/wiki/Europeana

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #4

Ara ja exporta registres suposadament en aquest format ese:

El format no és correcte (encara), però exporta alguna cosa. Estic una mica intrigat pel tema dels prefixes. Segons la taula d'equivalències que va fer la BC amb el CBUC, allà on en DC deia <dc:publisher>, p, ex., ha de dir <europeana:provider>. Però en els registres de l'enllaç que poso a sobre d'aquest paràgraf no hi ha els prefixes dc.

M'ho continuo mirant, a veure si ho entenc.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #5

Ja ho tinc pràcticament tot:

  1. ho exporta com a llista de formats per OAI.
  2. ja sé com fer les transformacions dels camps DC a europeana, i posar-los en l'ordre que demanen.
  3. ja els exporta via OAI (v. link anterior).

Em queda algun dubte, que solucionaré avui, sobre el europeana:object, i un tema de validació de la sintaxi XML.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #6

He aplicat els canvis del DDD de proves al públic, per poder fer validacions. Ara a més és ja és XML vàlid. Exemple de sortida:

http://ddd.uab.cat/oai2d?verb=ListRecords&metadataPrefix=ese&set=raac

Ens queden alguns dubtes:

  1. Hem de crear un (o més d'un) oaiset per als documents digilitzats amb fons del Ministerio? La Cristina m'ha dit que ja ho consultareu amb ells.
  2. Quin valor ha de tenir el camp europeana:object? El Ferran ho consultarà a l'Eugènia Serra, perquè l'exemple que posa es tan específc de la MDC que no sé com aplicar-lo.
  3. Hi ha alguna eina de validació del format ESE? El Ferran també ho consultarà a l'Eugènia, perquè sembla que sí que n'hi ha alguna.

Sobre el europeana:object, el document del CBUC diu que és recomanat, i a la columna comentaris conversió diu:

Agafem valor http://mdc.cbuc.cat/cgi-bin/thumbnail.exe?CISOROOT=$collectionName&CISOPTR=$itemNumber on $collectionName i $itemNumber es treuen a partir del dc:identifier (eliminem la part de http://mdc.cbuc.cat/u?/).

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #7

He consultat els dubtes amb l'Eugènia Serra.

  1. europeana:object és la miniatura del document. De fet, una miniatura. Les podríem posar totes? Potser sí, però si estem fent aquest apanyo del ESE només per Europeana i Europeana només n'agafa un, segurament no cal posar-ne més. Per part nostra en el DDD, he agafat la primera que surt.
  2. dc:type i europeana:type ja ho fem bé; el primer té el que tingui el registre, i el segon un dels quatre acceptats, en majúscula (TEXT, IMAGE, SOUND i VIDEO, i ara resulta que també n'acceptaran un que es dirà 3D, però que com que no en tenim al DDD, no ens afecta).
  3. les equivalències dc:publisher a europeana:publisher i també a europeana:dataProvider pateixen de què entenem per editor: el de l'original en paper de quan es va publicar, o del responsable de la digitalització. La BNC i per tant la MDC només parlen del document digitalitzat, i per tant hi surten ells, no l'editor original. Com que per al DC nosaltres hi posem la 260 $a i $b, és a dir, l'editor original, m'he permès decidir això, que podem canviar: deixo com a europeana:provider l'editor original i com a europeana:dataProvider nosaltres, amb el nom que hem de tenir segons l'Eugènia Serra: Universitat Autònoma de Barcelona.

Uns registres de mostra quedarien així:

http://ddd-test.uab.cat:2000/oai2d?verb=ListRecords&metadataPrefix=ese&set=raac

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #8

Ah, pel que fa al validador, és d'accés restringit per als ciutadans nobles, com ells. La resta dels europeus estem retallats. L'Eugènia s'ha ofert molt amablement a validar-nos una mostra, perquè aquest validador demana que no se'l carregui de gaire feina, uns poquets registres.

En fi. Quan nosaltres creguem que ho tenim correcte, ja li passarem una URL a l'Eugènia perquè ens faci d'intermediària.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #9

Finalment he fet les correccions i he actualtizat el DDD públic. Queda així:

Surt a la llista dels MetadataFormats, amb el codi ese:

http://ddd.uab.cat/oai2d?verb=ListMetadataFormats

Al DDD hem creat una col·lecció i un oaiset amb el nom uabeuropeana per a aquests registres. Amb la Cristina hem acordat aquest nom tan lleig perquè no es pugui confondre amb cap altra paraula, i perquè expressa bé que són registres de la UAB per a Europeana. Si les separessim amb guions, normals o baixos, les cerques serien més complicades. La col·lecció no penja de cap altra col·lecció, de manera que cal accedir-hi directament:

http://ddd.uab.cat/collection/uabeuropeana

El oaiset uabeuropeana ja surt a la llista d'oaisets:

http://ddd.uab.cat/oai2d?verb=ListSets

Una mostra de la sortida (per validar) d'aquests registres en format ese seria:

http://ddd.uab.cat/oai2d?verb=ListRecords&metadataPrefix=ese&set=uabeuropeana

CA Actualitzat per Cristina Azorin fa quasi 14 anys Accions #10

Gràcies per tot Ferran! Ara mateix hem enviat al Ministeri el correu amb el compliment de l'ESE demanant que ens recol·lectin a través d'Hispana i de pas que ens facin també la validació. La Maria Luisa m'ha dit que aquesta validació tampoc no era cap meravella i sobretot que moltes vegades calia interpretar molt bé els resultats així que penso que quantes més opinions tinguem millor.

Un cop ens diguin que tot està bé (em passaré el pont amb els dits creuats) la setmana vinent haurem de veure com fem les modificacions als registres. Vaig fent jo de poquets en poquets o vols automatitzar-ho d'alguna manera?

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #11

No tan ràpid! L'Eugènia Serra m'ha contestat això:

Ferran,

Em sembla que no podreu fer aquest tractament amb els camps
dataProvider i provider

El camp <europeana:dataProvider> s'ha d'informar amb el nom de la
institució en la que es troben els documents, tant si aquesta els
lliura directa o indirectament a Europeana.

El camp <europeana:provider> està pensat per a posar-hi l'agregador
(és a dir, l'organització que envia les dades a Europeana)

Quant no hi ha agregador, el contingut de <europeana:dataProvider> i
<europeana:provider>; aquest és, per exemple, el cas de tots els
registres de la MDC.

Quant al validador, m'ha donat els següents errors:

14:26:29 : *** Metadata file : oai2d.xml (0Mb) ***
14:26:31 : Validation has started
14:26:31 : Invalid XML provided. 
14:26:31 : Invalid XML provided. 
14:26:31 : Invalid field : :header in Record #1. Please refer to the ESE 3.4 specification. 
14:26:31 : Invalid XML provided. 
14:26:31 : Invalid XML provided. 
14:26:31 : Invalid field : :header in Record #2. Please refer to the ESE 3.4 specification. 
14:26:31 : Invalid XML provided. 
14:26:31 : Invalid XML provided. 
14:26:31 : Invalid field : :header in Record #3. Please refer to the ESE 3.4 specification. 
14:26:31 : Invalid XML provided. 
14:26:31 : Invalid XML provided. 
14:26:31 : Invalid field : :header in Record #4. Please refer to the ESE 3.4 specification.

Eugènia

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #12

La María Luisa Martinez-Conde del Ministerio coincideix en l'Eugènia pel que fa al dataProvider:

Hola Núria,

En este momento no puedo acceder al content checker, pero parece que
los registros son correctos excepto el contenido del data:Provider
que, de acuerdo con las especificaciones, es la institución que
canaliza los contenidos a Europeana, es decir el agregador.

El comportamiento de Hispana con este elemento es el siguiente:
- si no existe, lo añade <europena:provider>Hispana<europeana:provider>
- si existe, pero el contenido es distinto de "Hispana", lo sustituye 
por Hispana de manera que en este caso por nuestra parte no 
habría ningún problema, pero prefiero que lo reviséis porque no 
sé si el contenido correspondería a <dc:publisher> o a otra etiqueta.

Podéis, y quizá sea lo más práctico, poner el mismo contenido que en
el dataProvider, i.e UAB. Nosotros lo podemos cambiar automáticamente
y puede que os facilite los cambios si queréis participar en otro
proyecto.

Muchas gracias por vuestra colaboración.

Un saludo,

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #13

He corregit els <europeana:provider> i <europeana:dataProvider> perquè hi apareixi sempre la UAB. Porto bona part del dia buscant exemples de registres ESE per veure com resolen la capçapera, que és on, en OAI PMH, s'identifica el registre. No he estat capaç de trobar-los, al menys en la documentació oficial d'Europeana.

A partir de totes aquestes hores he intentat fer-me una composició de lloc, veient que la resta dels interlocutors, tant dintre com fora de la UAB, estem en una incertesa comparable.

Invenio té dos formats per Dublin Core: el que en diu DC i el que en diu OAI_DC. El primer el fa servir per consultar el registre en format DC a la pantalla, i el segon per OAI. Comparem el mateix registre en els diferents formats (també hi afegeixo el marcxml):

La diferència entre l'un i l'altra és que, per OAI, hi ha aquesta capçapera que identifica el registre, i sobretot hi afegeix la data de darrera modificació, imprescindible per l'actualització en una recol·lecta:

   <header> 
    <identifier>oai:ddd.uab.cat:20704</identifier> 
    <datestamp>2010-12-31T21:21:25Z</datestamp> 
    <setSpec>raac</setSpec> 
   </header> 

Jo entenc que si publiquem ESE per OAI hem de donar aquesta capçalera, que també dóna si el format és Marcxml (vegeu el darrer enllaç).

Entenc també que les validacions que ens ha fet l'Eugènia Serra són a partir d'un fitxer (i per tant no ha de tenir la capçalera), mentre que el Ministerio ens demana que ho oferim via OAI.

Clar que puc estar completament equivocat. Però, un cop més, els d'Europeana es llueixen en no posar exemples ni explicacions.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #14

La María Luisa Conde ens ha explicat que hi queda un error, que explica amb aquest adjunt:

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #16

  • Estat ha canviat de Creada a Tancada

Bé, crec que ja està. He escrit un correu a la María Luisa:

Buenas tardes, María Luisa,

finalmente he podido dedicar mi atención a la cabecera de los registros
en formato ESE y, hasta donde he podido validar los esquemas (por
ejemplo con Google Chrome, que es especialmente exigente, pero también
con Firefox u Opera), nuestros registros ya deberían ser sintácticamente
correctos.  Por ejemplo:

 http://ddd.uab.cat/oai2d?verb=GetRecord&metadataPrefix=ese&identifier=oai:ddd.uab.cat:20704

En todo caso, si se me hubiera pasado algún otro error, por favor
avisadnos.  Esto de trabajar sin poder validar con una herramienta
específica es un poco frustrante, especialmente si los esquemas de
Europeana parecen ser tan ad-hoc.

Gracias otra vez por tu ayuda.

Cordialmente,

Ferran Jorba

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #17

Doncs ara resulta que hem de tornar a canviar les capçaleres. En fi, si ho volen així...

Hola Ferran,

Disculpa que haya tardado tanto en contestar, leí tu mensaje en su momento y creía 
equivocadamente que te había contestado (la semana pasada fueron las fiestas de Madrid ...)

Para validar el esquema XML utilizamos Altova XMLSpy. Al intentar validarlo devuelve el mensaje:

Element <metadata> is not allowed under element <record>

En lugar de

</header>
<metadata xmlns="http://www.europeana.eu/schemas/ese/" 
xmlns:europeana="http://www.europeana.eu/schemas/ese/" 
xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/">
<dc:contributor>

Lo que espera encontrar es

</header>
<metadata>
<europeana:record xmlns:europeana="http://www.europeana.eu/schemas/ese/" 
xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.europeana.eu/schemas/ese/ http://www.europeana.eu/schemas/ese/ESE-V3.4.xsd">

Te envío el registro corregido. Por si te sirve de ayuda puedes ver ejemplos de ESE en Hispana, 
por ejemplo en la BV de Patrimonio Bibliográfico, Gredos, Universidad de Valladolid o Universidad 
de Santiago de Compostela.

Una vez corregido esto, pasa la validación del content checker (copio la pantalla más abajo) si 
se corrige otro problemilla con europeana:rigths donde el contenido no encaja con lo especificado 
en las directrices que os envío. Como supongo que esto ya no es cosa tuya, hablaré con Cristina 
o con Núria cuando esté resuelto el problema del esquema.

Siento el retaso y las “complicaciones”

Un saludo,

María Luisa

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #18

Ja s'estan creant les etiquetes 024 automàticament per a tots els registres d'aquesta col·lecció perquè apareguin també an oaiset uabeuropeana.

S'estan fent a un ritme d'uns 100 per hora. He posat aquest oaiset al mig dels de la tasca #1528, que només en quedaven uns poquets de la col·lecció working papers de la UAB, i que els acabarà després d'aquests d'europeana.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #19

Hi penjo els europeana_rights_guidelines.pdf que ens envíen des del Ministerio.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #20

Ja ha acabat d'actualtizar totes les 024 perque els registres de la col·lecció uabeuropeana també formin part del oaiset uabeuropeana.

A partir d'ara els aquestes actualtizacions es faran cada dissabte.

FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #21

  • Data de venciment s'ha establert a 31-10-2012
  • Inici s'ha establert a 01-10-2012

FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #22

  • Estat ha canviat de En curs a Creada

FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #23

  • Estat ha canviat de Creada a Tancada
Accions

També disponible a: PDF Atom