Projecte

General

Perfil

MetsModsPremisIMixAlDDD » Historial » Temàtica 1

Ferran Jorba, 23-10-2012 12:59

1 1 Ferran Jorba
h1. METS, MODS, PREMIS i MIX al DDD 
2
3
Va de sopa de sigles, com la que demanen al Ministerio per a la concessió d'ajuts per a la digitalització:
4
5
<pre>
6
b) La entrega de una copia de los metadatos METS 1.8 de los registros
7
bibliográficos creados que incluyan en sus etiquetas correspondientes las
8
descripciones bibliográficas en MARC XML, los metadatos administrativos, los
9
metadatos referidos a la propiedad intelectual, estructuradas según METSRights,
10
las rutas de acceso a las imágenes y los metadatos referentes a la preservación
11
según el Diccionario de Datos de PREMIS (PREMIS Data Dictionary for
12
Preservation Metadata, version 2.0) Este esquema de metadatos estará validado
13
mediante JHOVE (JSTOR/Harvard Object Validation Environment).
14
</pre>
15
16
17
18
En aquesta pàgina intentarem, doncs, recollir els conceptes bàsics, relacions entre aquests estàndards i el suport de CDS Invenio (i per tant al DDD) de cadascun d'ells.  Segurament hi ha alguna patinada d'enteniment que anirem corregint a mesura que entenguem millor cadascun d'aquests estàndards.
19
20
21
22
h2. METS (Metadata Encoding & Transmission Standard) 
23
24
25
26
Resumint, i tal com ho entenc jo, l'objectiu del METS (http://www.loc.gov/standards/mets/) és agrupar en un sol registre XML les tres o quatre metadades d'un objecte digital: les catalogràfiques, les de permisos, les tècniques i fins i tot les de relacions entre els diferents objectes (ex. revista, números, articles) que formen part d'una entitat.  Aleshores, surten registres autènticament monstruosos de tamany.
27
28
29
30
Les metadades catalogràfiques poden estar en MARC21 (MARCXML), DublinCore o MODS.  Les metadades tècniques, p. ex. les d'imatges, es poden expressar en MIX, i les de relacions ho expressen en METS pròpiament dit.  I finalment, les administratives-permisos-etc., s'expresen en PREMIS.
31
32
33
34
És el que en METS en diuen _external schemas_ (http://www.loc.gov/standards/mets/mets-extenders.html), i que inclouen:
35
36
37
38
* Descriptive Metadata
39
** Dublin Core
40
** Metadata Object Description Schema (MODS)
41
** MARCXML MARC 21 Schema (MARCXML)
42
** VRA Core
43
* Administrative Metadata
44
** textMD (Schema for Technical Metadata for Text)
45
** NISO Technical Metadata for Digital Still Images Standards Committee
46
** Preservation Metadata (PREMIS)
47
* Other External Schemas (partial list):
48
** Schema proposed for use in the Library of Congress Audio-Visual Prototyping Project
49
** Schema for Rights Declaration (METSRights.xsd)
50
51
52
Segons els exemples de la Biblioteca del Congrés (http://www.loc.gov/standards/mets/mets-examples.html), podem veure clarament els tres grups:
53
54
55
<pre>
56
<mets:mets OBJID="loc.afc.afc9999005.1153" 
57
 xsi:schemaLocation="http://www.loc.gov/METS/ 
58
 http://www.loc.gov/standards/mets/mets.xsd 
59
 http://www.loc.gov/mods/v3 http://www.loc.gov/standards/mods/v3/mods-3-2.xsd" 
60
 PROFILE="lc:bibRecord">
61
<mets:dmdSec ID="dmd1">...
62
 <mets:mdWrap MDTYPE="MODS">
63
  [...dades catalogràfiques en MODS...]
64
 <mets:fileSec>
65
  <mets:fileGrp USE="MASTER">
66
   <mets:file MIMETYPE="image/tiff" GROUPID="G1" ID="f0178m">
67
    <mets:FLocat LOCTYPE="URL"
68
     xlink:href="http://lcweb4.loc.gov/natlib/ihas/warehouse/afc9999005/AFS_300_A734_B0178.tif"/>
69
   </mets:file>
70
  </mets:fileGrp>
71
   <mets:fileGrp USE="SERVICE">
72
    <mets:file MIMETYPE="image/jpeg" GROUPID="G1" ID="f0178s">
73
     <mets:FLocat LOCTYPE="URL"
74
      xlink:href="http://lcweb4.loc.gov/natlib/ihas/service/afc9999005/AFS_300_A34_B/0178v.jpg"/>
75
    </mets:file>
76
   </mets:fileGrp>
77
  </mets:fileSec>
78
 <mets:structMap>
79
  <mets:div DMDID="mods1" TYPE="bib:bibRecord">
80
   <mets:div TYPE="bib:card">
81
    <mets:div TYPE="lc:image">
82
     <mets:fptr FILEID="f0178m"/>
83
     <mets:fptr FILEID="f0178s"/>
84
    </mets:div>
85
   </mets:div>
86
  </mets:div>
87
 </mets:structMap>
88
</mets:mets>
89
</pre>
90
91
92
93
O aquest altre esquema, extret de «Using METS, PREMIS and MODS for Archiving eJournals», Angela Dappert, Markus Enders, _D-Lib Magazine_, Volume 14 Number 9/10, September/October 2008 (http://www.dlib.org/dlib/september08/dappert/09dappert.html):
94
95
96
97
http://www.dlib.org/dlib/september08/dappert/enders-fig1-rev.png
98
99
100
101
102
103
Suport per METS al CDS Invenio:
104
105
106
107
La Universidad de Zaragoza ha desenvolupat un cert suport per al METS a Invenio per a la versió 0.99.1 (per ex., qualsevol registre val; mireu a baix de tot a la dreta: http://zaguan.unizar.es/record/3871) i, amb uns missatges que ens hem interanviat amb ells, diuen que el tenen en beta, i quan ho tinguin més pulit, ho passaran al CERN perquè l'integrin en futures versions (http://cdsware.cern.ch/repo/?p=cds-invenio.git&a=search&h=HEAD&st=grep&s=mets).  De moment ja ens han passat en privat el que tenen ells.
108
109
110
111
h2. PREMIS (Preservation Metadata) 
112
113
114
115
Què és PREMIS (PREservation Metadata: Implementation Strategies)?  És una iniciativa del RLG i OCLC que consisteix en un conjunt de metadades de preservació amb els objectius de (cito de l'article http://www.loc.gov/standards/premis/caplan_guenther-librarytrends.pdf):
116
117
118
119
* define an implementable set of "core" preservation metadata elements, with broad applicability within the digital preservation community;
120
* draft a data dictionary to support the core preservation metadata element set;
121
* examine and evaluate alternative strategies for the encoding, storage, and management of preservation metadata within a digital preservation system, as well as for the exchange of preservation metadata among systems;
122
* conduct pilot programs for testing the group's recommendations and best practices in a variety of systems settings;
123
* explore opportunities for the cooperative creation and sharing of preservation metadata.
124
125
126
127
Suport per PREMIS al CDS Invenio:
128
129
130
131
La Universidad de Zaragoza també ha desenvolupat un cert suport per al PREMIS, i les notes anteriors a pel METS també s'apliquen aquí.
132
133
134
135
Lectures:
136
137
138
139
La preservación de documentos digitales: el modelo PREMIS en castellano. Traducido por Lorea Elduayen y Bárbara Muñoz. Puede descargarse el documento en: www.loc.gov/standards/premis/PREMIS_es.pdf
140
141
142
143
h2. METSRights 
144
145
146
147
No sembla que hi hagi gaire més documentació que l'exemple que hi ha a la Biblioteca del Congrés i algunes presentacions (http://www.google.es/search?q=metsrights).  Els de la California Digital Library fan algunes recomanacions pràctiques a http://www.cdlib.org/inside/diglib/guidelines/amdrightsreqs.html
148
149
150
151
h2. JHOVE (JSTOR/Harvard Object Validation Environment) 
152
153
154
155
Són els nostres fitxers .info per a cadascun dels fitxers PDF, TIFF o JPEG.  De fet, nosaltres també hi incloem alguna metadata tècnica més, però tota la sortida del JHOVE està en els .info, ex:
156
157
158
159
http://ddd.uab.cat/pub/bibinf/bibinf_a2009n36.info
160
161
162
163
(No entenc com els del Ministerio afirmen que _Este esquema de metadatos estará validado mediante JHOVE (JSTOR/Harvard Object Validation Environment)_.  Diria que tenen un empatx de sigles.
164
165
166
167
h2. Resum: METS, MARC XML, METSRights, PREMIS i JHOVE al DDD 
168
169
170
171
Aleshores, en quina situació estem nosaltres amb el nostre DDD?
172
173
174
175
* METS: M'he posat en contacte amb l'informàtic de Saragossa perquè m'expliqui què han fet, i ja tenim algunes de les regles per a crear l'exportació, tot i que de moment semblen insuficients.
176
* MARC XML: el tenim.
177
* METSRights: no tenim les dades codificades; serien les etiquetes 506 o 540 (?).
178
* PREMIS: podem obtenir la majoria de les dades (potser totes?) a partir de les URLs i els fitxers .info.  Pel que fa als fitxers de consulta, serà fàcil.  Dels de preservació (còpies _master_ en TIFF) ho podem extreure només dels que ja estan normalitzats, perquè a partir del nom dels fitxers podem automatitzar l'extracció de cada registre.
179
* JHOVE: el tenim per a tots els nostres objectes digitals.  Són els nostres fitxers .info.
180
181
182
183
Això sí, el que ens passa Zaragoza és per a instal·lar a la versió 0.99.1 (tasca #15).  Pel que hem pogut veure diria que podem fer aquesta exportació sense grans dificultats tècniques.  Segur que hi haurà més treball intel·lectual d'entendre què és el que hem de posar i perquè que la seva implementació informàtica.
184
185
186
187
h3. Exemples de METS i PREMIS al Ministerio 
188
189
190
191
Si busquem exemples a http://prensahistorica.mcu.es/, p. ex, poden sortir registres com aquest:
192
193
194
195
http://prensahistorica.mcu.es/prensahistorica/ca/periodicos/serie.cmd?idRegistro=4225&tipoRegistro=HOL&sel1=1932#gr1
196
197
198
199
i quan anem a «Imatges JPEG» (http://prensahistorica.mcu.es/prensahistorica/ca/catalogo_imagenes/grupo.cmd?path=3063118&ocultarCabecera=S), trobem a dalt a la dreta, una fletxa que diu METS, i que et porta a:
200
201
http://prensahistorica.mcu.es/prensahistorica/ca/catalogo_imagenes/exportar_mets.cmd?path=3063118
202
203
204
205
Un altre exemple a la LOC: http://www.loc.gov/standards/mets/sfquad.xml
206
207
208
209
210
211
----
212
213
214
215
Algunes notes sobre altres estàndards
216
217
218
219
h2. MODS (Metadata Object Description Standard) 
220
221
222
223
El MODS (http://www.loc.gov/standards/mods/) sembla ser una alternativa més senzilla que el MARC21 però més completa que el DublinCore, http://www.loc.gov/standards/mods/mods-overview.html
224
225
226
227
MODS sembla prou ben pensat com perquè els d'Evergreen (l'ILS lliure per consorcis de biblioteques) l'utilitzin com a agrupador de camps MARC per als seus índexos (http://evergreen-ils.org/blog/?p=44).
228
229
230
231
Suport per MODS al CDS Invenio:
232
233
234
235
El RERO va desenvolupar el suport per MODS a CDS Invenio (ex., http://doc.rero.ch/record/12546, a dalt a la dreta), i el CERN l'ha integrat per a la versió posterior a la 0.99.1: http://cdsware.cern.ch/repo/?p=cds-invenio.git;a=commit;h=1347f4b9f1b95a4df42346d7c36a9c24ed64cc1a
236
237
238
239
h2. MIX (NISO Metadata for Images in XML) 
240
241
242
243
http://www.loc.gov/standards/mix/