Projecte

General

Perfil

Accions

METS, MODS, PREMIS i MIX al DDD

Va de sopa de sigles, com la que demanen al Ministerio per a la concessió d'ajuts per a la digitalització:

b) La entrega de una copia de los metadatos METS 1.8 de los registros
bibliográficos creados que incluyan en sus etiquetas correspondientes las
descripciones bibliográficas en MARC XML, los metadatos administrativos, los
metadatos referidos a la propiedad intelectual, estructuradas según METSRights,
las rutas de acceso a las imágenes y los metadatos referentes a la preservación
según el Diccionario de Datos de PREMIS (PREMIS Data Dictionary for
Preservation Metadata, version 2.0) Este esquema de metadatos estará validado
mediante JHOVE (JSTOR/Harvard Object Validation Environment).

En aquesta pàgina intentarem, doncs, recollir els conceptes bàsics, relacions entre aquests estàndards i el suport de CDS Invenio (i per tant al DDD) de cadascun d'ells. Segurament hi ha alguna patinada d'enteniment que anirem corregint a mesura que entenguem millor cadascun d'aquests estàndards.

METS (Metadata Encoding & Transmission Standard)

Resumint, i tal com ho entenc jo, l'objectiu del METS (http://www.loc.gov/standards/mets/) és agrupar en un sol registre XML les tres o quatre metadades d'un objecte digital: les catalogràfiques, les de permisos, les tècniques i fins i tot les de relacions entre els diferents objectes (ex. revista, números, articles) que formen part d'una entitat. Aleshores, surten registres autènticament monstruosos de tamany.

Les metadades catalogràfiques poden estar en MARC21 (MARCXML), DublinCore o MODS. Les metadades tècniques, p. ex. les d'imatges, es poden expressar en MIX, i les de relacions ho expressen en METS pròpiament dit. I finalment, les administratives-permisos-etc., s'expresen en PREMIS.

És el que en METS en diuen external schemas (http://www.loc.gov/standards/mets/mets-extenders.html), i que inclouen:

  • Descriptive Metadata
    • Dublin Core
    • Metadata Object Description Schema (MODS)
    • MARCXML MARC 21 Schema (MARCXML)
    • VRA Core
  • Administrative Metadata
    • textMD (Schema for Technical Metadata for Text)
    • NISO Technical Metadata for Digital Still Images Standards Committee
    • Preservation Metadata (PREMIS)
  • Other External Schemas (partial list):
    • Schema proposed for use in the Library of Congress Audio-Visual Prototyping Project
    • Schema for Rights Declaration (METSRights.xsd)

Segons els exemples de la Biblioteca del Congrés (http://www.loc.gov/standards/mets/mets-examples.html), podem veure clarament els tres grups:

<mets:mets OBJID="loc.afc.afc9999005.1153" 
 xsi:schemaLocation="http://www.loc.gov/METS/ 
 http://www.loc.gov/standards/mets/mets.xsd 
 http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-2.xsd" 
 PROFILE="lc:bibRecord">
<mets:dmdSec ID="dmd1">...
 <mets:mdWrap MDTYPE="MODS">
  [...dades catalogràfiques en MODS...]
 <mets:fileSec>
  <mets:fileGrp USE="MASTER">
   <mets:file MIMETYPE="image/tiff" GROUPID="G1" ID="f0178m">
    <mets:FLocat LOCTYPE="URL" 
     xlink:href="http://lcweb4.loc.gov/natlib/ihas/warehouse/afc9999005/AFS_300_A734_B0178.tif"/>
   </mets:file>
  </mets:fileGrp>
   <mets:fileGrp USE="SERVICE">
    <mets:file MIMETYPE="image/jpeg" GROUPID="G1" ID="f0178s">
     <mets:FLocat LOCTYPE="URL" 
      xlink:href="http://lcweb4.loc.gov/natlib/ihas/service/afc9999005/AFS_300_A34_B/0178v.jpg"/>
    </mets:file>
   </mets:fileGrp>
  </mets:fileSec>
 <mets:structMap>
  <mets:div DMDID="mods1" TYPE="bib:bibRecord">
   <mets:div TYPE="bib:card">
    <mets:div TYPE="lc:image">
     <mets:fptr FILEID="f0178m"/>
     <mets:fptr FILEID="f0178s"/>
    </mets:div>
   </mets:div>
  </mets:div>
 </mets:structMap>
</mets:mets>

O aquest altre esquema, extret de «Using METS, PREMIS and MODS for Archiving eJournals», Angela Dappert, Markus Enders, D-Lib Magazine, Volume 14 Number 9/10, September/October 2008 (http://www.dlib.org/dlib/september08/dappert/09dappert.html):

http://www.dlib.org/dlib/september08/dappert/enders-fig1-rev.png

Suport per METS al CDS Invenio:

La Universidad de Zaragoza ha desenvolupat un cert suport per al METS a Invenio per a la versió 0.99.1 (per ex., qualsevol registre val; mireu a baix de tot a la dreta: http://zaguan.unizar.es/record/3871) i, amb uns missatges que ens hem interanviat amb ells, diuen que el tenen en beta, i quan ho tinguin més pulit, ho passaran al CERN perquè l'integrin en futures versions (http://cdsware.cern.ch/repo/?p=cds-invenio.git&a=search&h=HEAD&st=grep&s=mets). De moment ja ens han passat en privat el que tenen ells.

PREMIS (Preservation Metadata)

Què és PREMIS (PREservation Metadata: Implementation Strategies)? És una iniciativa del RLG i OCLC que consisteix en un conjunt de metadades de preservació amb els objectius de (cito de l'article http://www.loc.gov/standards/premis/caplan_guenther-librarytrends.pdf):

  • define an implementable set of "core" preservation metadata elements, with broad applicability within the digital preservation community;
  • draft a data dictionary to support the core preservation metadata element set;
  • examine and evaluate alternative strategies for the encoding, storage, and management of preservation metadata within a digital preservation system, as well as for the exchange of preservation metadata among systems;
  • conduct pilot programs for testing the group's recommendations and best practices in a variety of systems settings;
  • explore opportunities for the cooperative creation and sharing of preservation metadata.

Suport per PREMIS al CDS Invenio:

La Universidad de Zaragoza també ha desenvolupat un cert suport per al PREMIS, i les notes anteriors a pel METS també s'apliquen aquí.

Lectures:

La preservación de documentos digitales: el modelo PREMIS en castellano. Traducido por Lorea Elduayen y Bárbara Muñoz. Puede descargarse el documento en: www.loc.gov/standards/premis/PREMIS_es.pdf

METSRights

No sembla que hi hagi gaire més documentació que l'exemple que hi ha a la Biblioteca del Congrés i algunes presentacions (http://www.google.es/search?q=metsrights). Els de la California Digital Library fan algunes recomanacions pràctiques a http://www.cdlib.org/inside/diglib/guidelines/amdrightsreqs.html

JHOVE (JSTOR/Harvard Object Validation Environment)

Són els nostres fitxers .info per a cadascun dels fitxers PDF, TIFF o JPEG. De fet, nosaltres també hi incloem alguna metadata tècnica més, però tota la sortida del JHOVE està en els .info, ex:

http://ddd.uab.cat/pub/bibinf/bibinf_a2009n36.info

(No entenc com els del Ministerio afirmen que Este esquema de metadatos estará validado mediante JHOVE (JSTOR/Harvard Object Validation Environment). Diria que tenen un empatx de sigles.

Resum: METS, MARC XML, METSRights, PREMIS i JHOVE al DDD

Aleshores, en quina situació estem nosaltres amb el nostre DDD?

  • METS: M'he posat en contacte amb l'informàtic de Saragossa perquè m'expliqui què han fet, i ja tenim algunes de les regles per a crear l'exportació, tot i que de moment semblen insuficients.
  • MARC XML: el tenim.
  • METSRights: no tenim les dades codificades; serien les etiquetes 506 o 540 (?).
  • PREMIS: podem obtenir la majoria de les dades (potser totes?) a partir de les URLs i els fitxers .info. Pel que fa als fitxers de consulta, serà fàcil. Dels de preservació (còpies master en TIFF) ho podem extreure només dels que ja estan normalitzats, perquè a partir del nom dels fitxers podem automatitzar l'extracció de cada registre.
  • JHOVE: el tenim per a tots els nostres objectes digitals. Són els nostres fitxers .info.

Això sí, el que ens passa Zaragoza és per a instal·lar a la versió 0.99.1 (tasca #15). Pel que hem pogut veure diria que podem fer aquesta exportació sense grans dificultats tècniques. Segur que hi haurà més treball intel·lectual d'entendre què és el que hem de posar i perquè que la seva implementació informàtica.

Exemples de METS i PREMIS al Ministerio

Si busquem exemples a http://prensahistorica.mcu.es/, p. ex, poden sortir registres com aquest:

http://prensahistorica.mcu.es/prensahistorica/ca/periodicos/serie.cmd?idRegistro=4225&tipoRegistro=HOL&sel1=1932#gr1

i quan anem a «Imatges JPEG» (http://prensahistorica.mcu.es/prensahistorica/ca/catalogo_imagenes/grupo.cmd?path=3063118&ocultarCabecera=S), trobem a dalt a la dreta, una fletxa que diu METS, i que et porta a:

http://prensahistorica.mcu.es/prensahistorica/ca/catalogo_imagenes/exportar_mets.cmd?path=3063118

Un altre exemple a la LOC: http://www.loc.gov/standards/mets/sfquad.xml


Algunes notes sobre altres estàndards

MODS (Metadata Object Description Standard)

El MODS (http://www.loc.gov/standards/mods/) sembla ser una alternativa més senzilla que el MARC21 però més completa que el DublinCore, http://www.loc.gov/standards/mods/mods-overview.html

MODS sembla prou ben pensat com perquè els d'Evergreen (l'ILS lliure per consorcis de biblioteques) l'utilitzin com a agrupador de camps MARC per als seus índexos (http://evergreen-ils.org/blog/?p=44).

Suport per MODS al CDS Invenio:

El RERO va desenvolupar el suport per MODS a CDS Invenio (ex., http://doc.rero.ch/record/12546, a dalt a la dreta), i el CERN l'ha integrat per a la versió posterior a la 0.99.1: http://cdsware.cern.ch/repo/?p=cds-invenio.git;a=commit;h=1347f4b9f1b95a4df42346d7c36a9c24ed64cc1a

MIX (NISO Metadata for Images in XML)

http://www.loc.gov/standards/mix/

Actualitzat per Ferran Jorba fa més de 13 anys · 1 revisions