Tasca #1492
tancatImplementació del format ESE seguint les especificacions del model EDM (Europeana)
Descripció
Per als requeriments tècnics de metadades:
Europeana requeriments tècnics
http://pro.europeana.eu/technical-requirements
On trobem:- Europeana Semantic Elements Specification v1.0: http://pro.europeana.eu/documents/900548/4968d0bd-416b-48ed-bc67-6a4a47f09098
- també hi ha les especificacions per a la versió 3.4: http://hdl.handle.net/10421/2403
Documentació EDM
http://pro.europeana.eu/edm-documentation
- Definition of the Europeana Data Model elements http://pro.europeana.eu/documents/900548/bb6b51df-ad11-4a78-8d8a-44cc41810f22
Sobre el tema de SKOS he trobat:
María Luisa Martínez-Conde / Subdirección General de Coordinación Bibliotecaria / Ministerio de Cultura
La Subdirección General de Coordinación Bibliotecaria ha puesto en producción un registro CKAN (Comprehensive Knowledge Archive Network), que se encuentra en http://id.sgcb.mcu.es con los 17.323 términos que conforman la Lista de Encabezamientos de Materia para Bibliotecas Públicas a la estructura SKOS (Simple Knowledge Organization System). Para ello, se ha llevado a cabo una codificación conforme al namespace de SKOS de todos los términos, tanto admitidos como no admitidos, así como los relacionados; de materia y topográficos; subencabezamientos de materia y topográficos, subencabezamientos cronológicos y subencabezamientos de forma.
La base de datos puede consultarse a través de una interfaz web y, en sí misma, no conduce a ningún registro bibliográfico, pues en realidad y desde un punto de vista funcional, se asemeja más a un fichero de autoridades que a un catálogo bibliográfico. Será posteriormente, cuando los registros se hayan vinculado bien directamente, bien indirectamente por medio de CoolURIs que aparecerán recogidas en el campo 024 del formato MARC 21 (esta es la recomendación del Ministerio de Cultura) cuando la navegación mediante vínculos será verdaderamente posible. El Ministerio de Cultura ya ha establecido esta vinculación con la Biblioteca Virtual del Patrimonio Bibliográfico y pronto será visible la potencia y la flexibilidad de este conjunto de datos vinculados.
Se ha establecido una vinculación con los Library of Congress Subject Headings, mediante la etiqueta skos:closeMatch, lo que supone una primera muestra de la capacidad de vincular unos conjuntos de información con otros. Próximamente se llevará a cabo una acción similar con listas de encabezamientos de materia en otras lenguas y se dará especial relevancia a la vinculación con los encabezamientos de materia en las distintas lenguas oficiales.
Los registros tienen, al tratarse de SKOS, una estructura RDF (Resource Description Framework), aunque no están almacenados internamente así y conviene recordar que los namespace de RDF y SKOS, junto con los de OAI-ORE y Dublin Core, son los cuatro elementos constituyentes del Europeana Data Model con el que se está construyendo en la actualidad la base de datos Europeana, cuyo proyecto piloto Europeana Linked Open Data http://version1.europeana.eu/web/lod/, que consta de 3,5 millones de registros, se ha iniciado recientemente y al que ya contribuye Hispana con más de un millón y medio de registros de treinta proveedores de datos.
Para la consulta se ha utilizado una herramienta denominada Virtuoso, de código abierto, y los datos RDF pueden presentarse en JSON, N-Triples, N3/Turtle y XML.
De moment, veient la complexitat, diria que podem exportar en format ESE sense matèries :·))
Fitxers
CA Actualitzat per Cristina Azorin fa quasi 14 anys
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
- Prioritat ha canviat de Alta a Urgent
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
En el DDD de proves ja apareix l'ese a la llista dels ListMetadataFormats:
http://ddd-test.uab.cat:2000/oai2d?verb=ListMetadataFormats
Els valors de metadataPrefix i metadataNamespace els he copiat de les referències que he trobat en el document del CBUC i a cop de Google.
He seguit sobretot aquests exemples:
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Ara ja exporta registres suposadament en aquest format ese:
- http://ddd-test.uab.cat:2000/oai2d?verb=ListRecords&metadataPrefix=ese&set=raac
- http://ddd-test.uab.cat:2000/oai2d?verb=ListRecords&metadataPrefix=oai_dc&set=raac
El format no és correcte (encara), però exporta alguna cosa. Estic una mica intrigat pel tema dels prefixes. Segons la taula d'equivalències que va fer la BC amb el CBUC, allà on en DC deia <dc:publisher>, p, ex., ha de dir <europeana:provider>. Però en els registres de l'enllaç que poso a sobre d'aquest paràgraf no hi ha els prefixes dc.
M'ho continuo mirant, a veure si ho entenc.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Ja ho tinc pràcticament tot:
- ho exporta com a llista de formats per OAI.
- ja sé com fer les transformacions dels camps DC a europeana, i posar-los en l'ordre que demanen.
- ja els exporta via OAI (v. link anterior).
Em queda algun dubte, que solucionaré avui, sobre el europeana:object, i un tema de validació de la sintaxi XML.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
He aplicat els canvis del DDD de proves al públic, per poder fer validacions. Ara a més és ja és XML vàlid. Exemple de sortida:
http://ddd.uab.cat/oai2d?verb=ListRecords&metadataPrefix=ese&set=raac
Ens queden alguns dubtes:
- Hem de crear un (o més d'un) oaiset per als documents digilitzats amb fons del Ministerio? La Cristina m'ha dit que ja ho consultareu amb ells.
- Quin valor ha de tenir el camp europeana:object? El Ferran ho consultarà a l'Eugènia Serra, perquè l'exemple que posa es tan específc de la MDC que no sé com aplicar-lo.
- Hi ha alguna eina de validació del format ESE? El Ferran també ho consultarà a l'Eugènia, perquè sembla que sí que n'hi ha alguna.
Sobre el europeana:object, el document del CBUC diu que és recomanat, i a la columna comentaris conversió diu:
Agafem valor http://mdc.cbuc.cat/cgi-bin/thumbnail.exe?CISOROOT=$collectionName&CISOPTR=$itemNumber on $collectionName i $itemNumber es treuen a partir del dc:identifier (eliminem la part de http://mdc.cbuc.cat/u?/).
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
He consultat els dubtes amb l'Eugènia Serra.
europeana:objectés la miniatura del document. De fet, una miniatura. Les podríem posar totes? Potser sí, però si estem fent aquest apanyo del ESE només per Europeana i Europeana només n'agafa un, segurament no cal posar-ne més. Per part nostra en el DDD, he agafat la primera que surt.dc:typeieuropeana:typeja ho fem bé; el primer té el que tingui el registre, i el segon un dels quatre acceptats, en majúscula (TEXT, IMAGE, SOUND i VIDEO, i ara resulta que també n'acceptaran un que es dirà 3D, però que com que no en tenim al DDD, no ens afecta).- les equivalències
dc:publisheraeuropeana:publisheri també aeuropeana:dataProviderpateixen de què entenem per editor: el de l'original en paper de quan es va publicar, o del responsable de la digitalització. La BNC i per tant la MDC només parlen del document digitalitzat, i per tant hi surten ells, no l'editor original. Com que per al DC nosaltres hi posem la 260 $a i $b, és a dir, l'editor original, m'he permès decidir això, que podem canviar: deixo com aeuropeana:providerl'editor original i com aeuropeana:dataProvidernosaltres, amb el nom que hem de tenir segons l'Eugènia Serra: Universitat Autònoma de Barcelona.
Uns registres de mostra quedarien així:
http://ddd-test.uab.cat:2000/oai2d?verb=ListRecords&metadataPrefix=ese&set=raac
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Ah, pel que fa al validador, és d'accés restringit per als ciutadans nobles, com ells. La resta dels europeus estem retallats. L'Eugènia s'ha ofert molt amablement a validar-nos una mostra, perquè aquest validador demana que no se'l carregui de gaire feina, uns poquets registres.
En fi. Quan nosaltres creguem que ho tenim correcte, ja li passarem una URL a l'Eugènia perquè ens faci d'intermediària.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Finalment he fet les correccions i he actualtizat el DDD públic. Queda així:
Surt a la llista dels MetadataFormats, amb el codi ese:
http://ddd.uab.cat/oai2d?verb=ListMetadataFormats
Al DDD hem creat una col·lecció i un oaiset amb el nom uabeuropeana per a aquests registres. Amb la Cristina hem acordat aquest nom tan lleig perquè no es pugui confondre amb cap altra paraula, i perquè expressa bé que són registres de la UAB per a Europeana. Si les separessim amb guions, normals o baixos, les cerques serien més complicades. La col·lecció no penja de cap altra col·lecció, de manera que cal accedir-hi directament:
http://ddd.uab.cat/collection/uabeuropeana
El oaiset uabeuropeana ja surt a la llista d'oaisets:
http://ddd.uab.cat/oai2d?verb=ListSets
Una mostra de la sortida (per validar) d'aquests registres en format ese seria:
http://ddd.uab.cat/oai2d?verb=ListRecords&metadataPrefix=ese&set=uabeuropeana
CA Actualitzat per Cristina Azorin fa quasi 14 anys
Gràcies per tot Ferran! Ara mateix hem enviat al Ministeri el correu amb el compliment de l'ESE demanant que ens recol·lectin a través d'Hispana i de pas que ens facin també la validació. La Maria Luisa m'ha dit que aquesta validació tampoc no era cap meravella i sobretot que moltes vegades calia interpretar molt bé els resultats així que penso que quantes més opinions tinguem millor.
Un cop ens diguin que tot està bé (em passaré el pont amb els dits creuats) la setmana vinent haurem de veure com fem les modificacions als registres. Vaig fent jo de poquets en poquets o vols automatitzar-ho d'alguna manera?
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
No tan ràpid! L'Eugènia Serra m'ha contestat això:
Ferran, Em sembla que no podreu fer aquest tractament amb els camps dataProvider i provider El camp <europeana:dataProvider> s'ha d'informar amb el nom de la institució en la que es troben els documents, tant si aquesta els lliura directa o indirectament a Europeana. El camp <europeana:provider> està pensat per a posar-hi l'agregador (és a dir, l'organització que envia les dades a Europeana) Quant no hi ha agregador, el contingut de <europeana:dataProvider> i <europeana:provider>; aquest és, per exemple, el cas de tots els registres de la MDC. Quant al validador, m'ha donat els següents errors: 14:26:29 : *** Metadata file : oai2d.xml (0Mb) *** 14:26:31 : Validation has started 14:26:31 : Invalid XML provided. 14:26:31 : Invalid XML provided. 14:26:31 : Invalid field : :header in Record #1. Please refer to the ESE 3.4 specification. 14:26:31 : Invalid XML provided. 14:26:31 : Invalid XML provided. 14:26:31 : Invalid field : :header in Record #2. Please refer to the ESE 3.4 specification. 14:26:31 : Invalid XML provided. 14:26:31 : Invalid XML provided. 14:26:31 : Invalid field : :header in Record #3. Please refer to the ESE 3.4 specification. 14:26:31 : Invalid XML provided. 14:26:31 : Invalid XML provided. 14:26:31 : Invalid field : :header in Record #4. Please refer to the ESE 3.4 specification. Eugènia
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
La María Luisa Martinez-Conde del Ministerio coincideix en l'Eugènia pel que fa al dataProvider:
Hola Núria, En este momento no puedo acceder al content checker, pero parece que los registros son correctos excepto el contenido del data:Provider que, de acuerdo con las especificaciones, es la institución que canaliza los contenidos a Europeana, es decir el agregador. El comportamiento de Hispana con este elemento es el siguiente: - si no existe, lo añade <europena:provider>Hispana<europeana:provider> - si existe, pero el contenido es distinto de "Hispana", lo sustituye por Hispana de manera que en este caso por nuestra parte no habría ningún problema, pero prefiero que lo reviséis porque no sé si el contenido correspondería a <dc:publisher> o a otra etiqueta. Podéis, y quizá sea lo más práctico, poner el mismo contenido que en el dataProvider, i.e UAB. Nosotros lo podemos cambiar automáticamente y puede que os facilite los cambios si queréis participar en otro proyecto. Muchas gracias por vuestra colaboración. Un saludo,
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
He corregit els <europeana:provider> i <europeana:dataProvider> perquè hi apareixi sempre la UAB. Porto bona part del dia buscant exemples de registres ESE per veure com resolen la capçapera, que és on, en OAI PMH, s'identifica el registre. No he estat capaç de trobar-los, al menys en la documentació oficial d'Europeana.
A partir de totes aquestes hores he intentat fer-me una composició de lloc, veient que la resta dels interlocutors, tant dintre com fora de la UAB, estem en una incertesa comparable.
Invenio té dos formats per Dublin Core: el que en diu DC i el que en diu OAI_DC. El primer el fa servir per consultar el registre en format DC a la pantalla, i el segon per OAI. Comparem el mateix registre en els diferents formats (també hi afegeixo el marcxml):
- http://ddd.uab.cat/record/20704
- http://ddd.uab.cat/record/20704/export/xd
- http://ddd.uab.cat/oai2d?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:ddd.uab.cat:20704
- http://ddd.uab.cat/oai2d?verb=GetRecord&metadataPrefix=ese&identifier=oai:ddd.uab.cat:20704
- http://ddd.uab.cat/oai2d?verb=GetRecord&metadataPrefix=marcxml&identifier=oai:ddd.uab.cat:20704
La diferència entre l'un i l'altra és que, per OAI, hi ha aquesta capçapera que identifica el registre, i sobretot hi afegeix la data de darrera modificació, imprescindible per l'actualització en una recol·lecta:
<header>
<identifier>oai:ddd.uab.cat:20704</identifier>
<datestamp>2010-12-31T21:21:25Z</datestamp>
<setSpec>raac</setSpec>
</header>
Jo entenc que si publiquem ESE per OAI hem de donar aquesta capçalera, que també dóna si el format és Marcxml (vegeu el darrer enllaç).
Entenc també que les validacions que ens ha fet l'Eugènia Serra són a partir d'un fitxer (i per tant no ha de tenir la capçalera), mentre que el Ministerio ens demana que ho oferim via OAI.
Clar que puc estar completament equivocat. Però, un cop més, els d'Europeana es llueixen en no posar exemples ni explicacions.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
- S'ha afegit Fitxer diagnostic_mcu.jpg diagnostic_mcu.jpg
La María Luisa Conde ens ha explicat que hi queda un error, que explica amb aquest adjunt:
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
- S'ha afegit Fitxer About_the_xml_schema_3.4.doc About_the_xml_schema_3.4.doc
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
- Estat ha canviat de Creada a Tancada
Bé, crec que ja està. He escrit un correu a la María Luisa:
Buenas tardes, María Luisa, finalmente he podido dedicar mi atención a la cabecera de los registros en formato ESE y, hasta donde he podido validar los esquemas (por ejemplo con Google Chrome, que es especialmente exigente, pero también con Firefox u Opera), nuestros registros ya deberían ser sintácticamente correctos. Por ejemplo: http://ddd.uab.cat/oai2d?verb=GetRecord&metadataPrefix=ese&identifier=oai:ddd.uab.cat:20704 En todo caso, si se me hubiera pasado algún otro error, por favor avisadnos. Esto de trabajar sin poder validar con una herramienta específica es un poco frustrante, especialmente si los esquemas de Europeana parecen ser tan ad-hoc. Gracias otra vez por tu ayuda. Cordialmente, Ferran Jorba
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
- S'ha afegit Fitxer UAB_160512_corr.xml UAB_160512_corr.xml
- Estat ha canviat de Tancada a En curs
Doncs ara resulta que hem de tornar a canviar les capçaleres. En fi, si ho volen així...
Hola Ferran, Disculpa que haya tardado tanto en contestar, leí tu mensaje en su momento y creía equivocadamente que te había contestado (la semana pasada fueron las fiestas de Madrid ...) Para validar el esquema XML utilizamos Altova XMLSpy. Al intentar validarlo devuelve el mensaje: Element <metadata> is not allowed under element <record> En lugar de </header> <metadata xmlns="http://www.europeana.eu/schemas/ese/" xmlns:europeana="http://www.europeana.eu/schemas/ese/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/"> <dc:contributor> Lo que espera encontrar es </header> <metadata> <europeana:record xmlns:europeana="http://www.europeana.eu/schemas/ese/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.europeana.eu/schemas/ese/ http://www.europeana.eu/schemas/ese/ESE-V3.4.xsd"> Te envío el registro corregido. Por si te sirve de ayuda puedes ver ejemplos de ESE en Hispana, por ejemplo en la BV de Patrimonio Bibliográfico, Gredos, Universidad de Valladolid o Universidad de Santiago de Compostela. Una vez corregido esto, pasa la validación del content checker (copio la pantalla más abajo) si se corrige otro problemilla con europeana:rigths donde el contenido no encaja con lo especificado en las directrices que os envío. Como supongo que esto ya no es cosa tuya, hablaré con Cristina o con Núria cuando esté resuelto el problema del esquema. Siento el retaso y las “complicaciones” Un saludo, María Luisa
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Ja s'estan creant les etiquetes 024 automàticament per a tots els registres d'aquesta col·lecció perquè apareguin també an oaiset uabeuropeana.
S'estan fent a un ritme d'uns 100 per hora. He posat aquest oaiset al mig dels de la tasca #1528, que només en quedaven uns poquets de la col·lecció working papers de la UAB, i que els acabarà després d'aquests d'europeana.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
- S'ha afegit Fitxer europeana_rights_guidelines.pdf europeana_rights_guidelines.pdf
Hi penjo els europeana_rights_guidelines.pdf que ens envíen des del Ministerio.
FJ Actualitzat per Ferran Jorba fa quasi 14 anys
Ja ha acabat d'actualtizar totes les 024 perque els registres de la col·lecció uabeuropeana també formin part del oaiset uabeuropeana.
A partir d'ara els aquestes actualtizacions es faran cada dissabte.
FJ Actualitzat per Ferran Jorba fa més de 13 anys
- Data de venciment s'ha establert a 31-10-2012
- Inici s'ha establert a 01-10-2012
FJ Actualitzat per Ferran Jorba fa més de 13 anys
- Estat ha canviat de En curs a Creada
FJ Actualitzat per Ferran Jorba fa més de 13 anys
- Estat ha canviat de Creada a Tancada