Projecte

General

Perfil

Accions

Tasca #102

tancat
CA CA

Exportacions massives del DDD per al CONTENTdm.

Tasca #102: Exportacions massives del DDD per al CONTENTdm.

Afegit per Cristina Azorin fa quasi 18 anys. Actualitzat fa més de 10 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Gestió de la col·lecció
Temàtica prevista:
Inici:
Data de venciment:
Paraula clau:

Descripció

From: Robert Torre-Marín <rtorremarin@doc6.es>
Subject: Exportacions massives
To: "'Ferran.Jorba@uab.cat'" <Ferran.Jorba@uab.cat>
Cc: 'Memòria Digital de Catalunya Punt de Consulta' <mdc_contentdm@bnc.cat>
Date: Fri, 25 Jan 2008 19:47:00 +0100
Organization: Doc6
X-Mailer: Outlook Connector for MDaemon 2.1.3

Hola Ferran,

Sóc el Robert de doc6. He estat mirant el vostre producte per veure de
quina manera es podrien exportar registres a CONTENTdm. Si de cas,
m?agradaria parlar amb tu d?aquest tema, perquè en principi CONTENTdm
per fer importacions massives utilitza formats de text tabulat.  Pel
que veig el vostre aplicatiu té sortides en XML i altres formts, però
es necessitaria convertir-ho en un fitxer tabulat. Jo la setmana que
ve estic a Madrid, si ho consideres oportú ens fem un truc i en
parlem, també et puc fer arribar informació de com fer importacions a
CONTENTdm si ho creus necessari, com et vagi millor.

Salutacions,

Robert

********************************************************
Robert Torre-Marín Amorós.  Consultor
DOC6. Consultores en recursos de información
Telf: 93 215 43 13 / 91 553 52 07
Móvil: 607 65 87 69

rtorremarin@doc6.es
www.doc6.es
*********************************************************

Fitxers

Import-tab-delimited.pdf (1.12 MB) Import-tab-delimited.pdf Ferran Jorba, 03-04-2008 16:04
Monograph Sample.zip (1.2 MB) Monograph Sample.zip Ferran Jorba, 03-04-2008 16:05
Fitxers_ajuda_online.zip (125 KB) Fitxers_ajuda_online.zip Ferran Jorba, 03-04-2008 16:06
FormatImportacio_1005.pdf (1.36 MB) FormatImportacio_1005.pdf Format d'importació dades a la MDC (maig 2010) Cristina Azorin, 10-06-2010 18:58

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #1

From: Ferran Jorba <Ferran.Jorba@uab.cat>
Subject: Re: Exportacions massives del DDD per al CONTENTdm
To: Robert Torre-Marín <rtorremarin@doc6.es>
Cc: 'Memòria Digital de Catalunya Punt de Consulta'
 <mdc_contentdm@bnc.cat>, Cristina.Azorin@uab.cat,
 Núria Casaldàliga
 <Nuria.Casaldaliga@uab.cat>
Date: Thu, 21 Feb 2008 13:40:29 +0100
Organization: Universitat Autonoma de Barcelona
User-Agent: Gnus/5.11 (Gnus v5.11) Emacs/22.1 (gnu/linux)

Hola Robert,

> Sóc el Robert de doc6. He estat mirant el vostre producte per veure de
> quina manera es podrien exportar registres a CONTENTdm. Si de cas,
> m'agradaria parlar amb tu d'aquest tema, perquè en principi CONTENTdm
> per fer importacions massives utilitza formats de text tabulat.  Pel
> que veig el vostre aplicatiu té sortides en XML i altres formts, però
> es necessitaria convertir-ho en un fitxer tabulat. Jo la setmana que
> ve estic a Madrid, si ho consideres oportú ens fem un truc i en
> parlem, també et puc fer arribar informació de com fer importacions a
> CONTENTdm si ho creus necessari, com et vagi millor.

Sento moltíssim aquest retard en la meva resposta.  Vaig veure el teu
missatge fa un parell de dies (se m'havia quedat perdut enmig de l'allau
que rebo) i ara tinc un moment per contestart-te.

Fa alguns dies li vaig contestar a l'Èlia Llorente de la UAB sobre
aquest tema:

 Pel que fa a la informació bibliogràfica, és tant senzill com escollir
 el format d'exportació que vulguis i fer «Anomena i desa» amb el
 navegador.  Per exemple, totes les metadades del fons Goytisolo en
 MARCXML: 

  http://ddd.uab.cat/collection/jagc

 Fas clic a «Cerca», escollexies XML MARC o Dublin Core i tornes a fer
 clic a «Cerca».

  http://ddd.uab.cat/search?cc=jagc&p=&f=&action_search=Cerca&c=jagc&c=&sf=&so=d&rm=&rg=10&sc=1&of=xm

 Aleshores, canvies la URL per, en comptes de posar rg=10 hi poses
 rg=10000 per recollir tota la col·lecció, salves el resultat i ja ho
 tens.

 I pel que fa als PDFs, qualsevol robot (jo ho faig amb wget,
 http://www.gnu.org/software/wget/) pot recollir-los.

No sé si et va fer arribar aquesta informació, però no tinc gaire més a
afegir.  Com tot, qui ha de fer el format de conversió?  Si el fessim
nosaltres, quedaria permamentment i públicament exposat a dalt de tot a
la dreta de cada registre bibliogràfic.  A més, la manera de definir els
formats canviarà per a la propera versió, o sigui que aquesta feina es
perdria.  Com ho veus per adaptar-lo tu mateix?

Gràcies i, un cop més, sento el retard,

Ferran

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #2

From: Ferran Jorba <Ferran.Jorba@uab.cat>
Subject: Re: Migració de dades massives del ddd
To: Elia Llorente <Elia.Llorente@uab.cat>
Cc: Cristina.Azorin@uab.cat
Date: Fri, 18 Jan 2008 09:45:42 +0100
Organization: Universitat Autonoma de Barcelona
User-Agent: Gnus/5.11 (Gnus v5.11) Emacs/22.1 (gnu/linux)

Hola Èlia,

> Al Servei de Biblioteques volem migrar col·leccions del DDD a la
> Memòria Digital de Catalunya (el programa es l'Acquistion Station)
> M'ha trucat un informàtic de Doc6 (Robert Torremarin) que és qui
> donarà suport a aquest tema i m'ha preguntat si el DDD permet exportat
> dades de manera automàtica i a mi només se m'acut de fer-ho guardant
> els fitxers en xml, htm, etc.

Pel que fa a la informació bibliogràfica, és tant senzill com escollir
el format d'exportació que vulguis i fer «Anomena i desa» amb el
navegador.  Per exemple, totes les metadades del fons Goytisolo en
MARCXML: 

http://ddd.uab.cat/collection/jagc

Fas clic a «Cerca», escollexies XML MARC o Dublin Core i tornes a fer
clic a «Cerca».

 http://ddd.uab.cat/search?cc=jagc&p=&f=&action_search=Cerca&c=jagc&c=&sf=&so=d&rm=&rg=10&sc=1&of=xm

Aleshores, canvies la URL per, en comptes de posar rg=10 hi poses
rg=10000 per recollir tota la col·lecció, salves el resultat i ja ho
tens.

I pel que fa als PDFs, qualsevol robot (jo ho faig amb wget,
http://www.gnu.org/software/wget/) pot recollir-los.

> Hi ha alguna altra manera?
> En tot cas si hi ha més preguntes tècniques sobre el programa
> adreçaria a  aquesta persona a que parlés amb tu si no et sap greu.

No em sap greu, tot i que divendres a la tarda lliuro i no hi sóc.

Ferran

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #3

From: Robert Torre-Marín <rtorremarin@doc6.es>
Subject: RE: Exportacions massives del DDD per al CONTENTdm
To: 'Ferran Jorba' <Ferran.Jorba@uab.cat>
Cc: 'Memòria Digital de Catalunya Punt de Consulta' <mdc_contentdm@bnc.cat>
Date: Thu, 21 Feb 2008 17:44:00 +0100
Organization: Doc6
X-Mailer: Outlook Connector for MDaemon 2.1.3

Hola Ferran!

aquesta informació la vaig rebre, la qüestió per CONTENTdm és poder
exportar-ho en ascii (en un fitxer tabulat), per fer les posteriors
importacions, a més a més en un dels camps de la vostra exportació o
bé post-exportació, s'hauria d'especificar el nom del fitxer vinculat,
de manera que guardi el punter per vincular les metadades al fitxer
digital.

Potser explicat així no queda prou clar, jo t'afageixo més informació
que tenim disponible del proveïdor i li dones un cop d'ull a veure què
et sembla, ja que tenim un document que tracta les possibles
importacions d'ascci provinents de formats MARC o Dublin
Core. T'adjunto el document en aquest correu

Per a més informació, hi ha una adreça de suport a nivell del
proveïdor a http://www.contentdm.com/login/login.asp però necessiteu
tenir un login i password, no se si ho teniu vosaltres.

Salutacions, Robert

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #4

  • Tipus de tasca ha canviat de Defecte a Tasca

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #5

From: Robert Torre-Marín <rtorremarin@doc6.es>
Subject: Importacions a CONTENTdm
To: 'Elia Llorente' <Elia.Llorente@uab.cat>
Cc: 'Ferran Jorba' <Ferran.Jorba@uab.cat>,
 'Memòria Digital de Catalunya Punt de Consulta'
 <mdc_contentdm@bnc.cat>
Date: Mon, 31 Mar 2008 18:42:00 +0200
Organization: Doc6
X-Mailer: Outlook Connector for MDaemon 2.1.3

Hola,

en breu rebreu un parell d?exemples dels tipus de fitxers ascii amb
els que CONTENTdm treballa per les importacions massives. També us
farem arribar un manual de com fer importacions a CONTENTdm. El primer
que heu de resoldre és la manera de convertir les vostres dades a un
fitxer ascii, ja que no he vist la possibilitat en la vostra
plataforma de poder-ho exportar en ascii delimitat, ja que CONTENTdm
necessita un fitxer d?aquest tipus per les importacions.

Salutacions,

Robert   

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #6

From: Elia Llorente <Elia.Llorente@uab.cat>
Subject: [Fwd: Importacions a CONTENTdm]
To: Ferran Jorba <Ferran.Jorba@uab.es>
Date: Tue, 01 Apr 2008 15:58:29 +0200
User-Agent: Thunderbird 2.0.0.12 (Windows/20080213)

Hola Ferran,

T'escric de nou per veure si em pots ajudar a explicar a Doc6 com es
pot exportar des del DDD a ascii delimitat ja que el ContentDM
necessita un fitxer d'aquest tipus per fer les importacions.

Si li vols contestar amb ell directament, només posa'm, si us plau, a
mi com a còpia per no perdre'm.

Moltes gràcies

Salutacions,

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #7

From: Ferran Jorba <Ferran.Jorba@uab.cat>
Subject: Re: [Fwd: Importacions a CONTENTdm]
To: Elia Llorente <Elia.Llorente@uab.cat>
Cc: Núria Casaldàliga <Nuria.Casaldaliga@uab.cat>, Cristina.Azorin@uab.cat
Date: Tue, 01 Apr 2008 16:32:20 +0200
Organization: Universitat Autonoma de Barcelona
User-Agent: Gnus/5.11 (Gnus v5.11) Emacs/22.1 (gnu/linux)

Hola Èlia,

> T'escric de nou per veure si em pots ajudar a explicar a Doc6 com es
> pot exportar des del DDD a ascii delimitat ja que el ContentDM
> necessita un fitxer d'aquest tipus per fer les importacions.

Aquest matí n'hem parlat amb la Núria Casaldàliga però si no ho entès
malament, he deduit que el que has de fer és passar-los-hi tu mateixa el
fitxer DublinCore o MarcXML, però he entès que jo no he de fer cap
transformació.  Si ells no saben agafar un format tan estàndard com
Dublin Core i carregar-lo a ContendDM, malament.

http://wikis.bib.uab.cat/DDD/ticket/8

A mesura que rebi jo o rebis tu més informació d'aquest individu, pots
penjar-la a aquesta tasca.

> Si li vols contestar amb ell directament, només posa'm, si us plau, a
> mi com a còpia per no perdre'm.

Per això ho penjo tot al wiki, perquè si no jo també em perdo ;-)

> Moltes gràcies

A tu,

Ferran

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #8

From: Robert Torre-Marín <rtorremarin@doc6.es>
Subject: Conversió fitxers a CONTENTdm
To: 'Elia Llorente' <Elia.Llorente@uab.cat>,
 'Ferran Jorba' <Ferran.Jorba@uab.cat>
Cc: 'Memòria Digital de Catalunya Punt de Consulta'
 <mdc_contentdm@bnc.cat>, "'eguerrero@doc6.es'" <eguerrero@doc6.es>
Date: Thu, 03 Apr 2008 12:55:00 +0200
Organization: Doc6
X-Mailer: Outlook Connector for MDaemon 2.1.3

Hola,

Us envio documentació sobre una possible manera de fer la importació
de les dades de l?aplicatiu DDD al CONTENTdm. Per aquesta possible
importació podem triar dues maneres de fer-la, o bé utilitzant el
format MARC o MARCXML i utilitzant una eina anomenada MARCEdit per fer
la conversió en ASCII i després la puja a CONTENTdm. Per aquest tipus
d?importació existeix un tutorial de com fer-ho que us adjunto en
aquest mail.

També us adjunto un zip amb diferents fitxers d?imatges i els fitxers
de text delimitat per tal que sapigueu quina estructura és necessària
per fer la puja de fitxers a CONTENTdm. Si us hi fixeu, per CONTENTdm
és important definir si l?objecte digital a pujar és simple o
compost. ÉS a dir, si es tracta d?una imatge simple o bé d?un conjunt
d?imatges que formen part o bé d?una jerarquia o bé d?una estructura
lineal però composta de x fitxers. Segons quin tipus de fitxer sigui,
el fitxer ASCII delimitat (que és l?únic tipus de fitxer que es pot
importar a CONTENTdm), varien els camps que es necessiten en l?ASCII a
pujar, per exemple, si és un objecte compost necessita tenir uns camps
que determinin si té jerarquia o no, això també ho podreu veure en el
tutorial que us remeto.

Si voleu utilitzar un format XML o qualsevol altre format,
necessitareu un parser que ho converteixi en ASCII, o fer algún tipus
de conversió. També us envio un zip amb diferents html?s que expliquen
el procés d?importació des de la part client (anomenada Acquisition
Station) cap a CONTENTdm. El que us proposo també és que accediu a la
extranet del proveïdor on teniu tot tipus d?informació de
CONTENTdm. Bàsicament la informació que us envio es troba en aquesta
extranet, i crec que és interessant que tingueu accés.
Hauríeu de tenir un codi de client, suposo que el deu tenir algú de
vosaltres i un password pere accedir a la extranet de CONTENTdm.

http://www.contentdm.com/login/login.asp

Crec que aquest és el punt de partida amb la informació que es
necessita per fer la importació. Estem en contacte i si creieu
necessari obtenir més informació o us generen dubtes en parlem.

Gràcies

Robert

FJ Actualitzat per Ferran Jorba fa quasi 18 anys Accions #9

He vist que els fitxers html d'ajuda apunten a la web de !ContentDM, i que segurament seran més fàcils de consultar allà mateix: http://www.contentdm.com/help4/acq-station/entering.html

CA Actualitzat per Cristina Azorin fa quasi 18 anys Accions #10

  • Assignat a ha canviat de nobody a Javier Planella

CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #11

  • Prioritat ha canviat de medium a high

CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #12

  • Prioritat ha canviat de high a medium

CA Actualitzat per Cristina Azorin fa més de 16 anys Accions #13

Al mes de juny, arrel de l'entrada dels cartells polítics des de la UTP vam fer la consulta sobre exportacions a la UB. Aquestes van ser les respostes:

Judith Casals (16/06/2009)

Hola Cristina,

espero que tot vagi bé...

no hem avançat gaire en el tema a la pràctica, si que aconseguim exportar de ContentDM el registres en dc amb bastant facilitat; la idea era (per un ajut del Ministeri) extreure-ho en dc i passar-ho a xml marc amb una plantilla de conversió (aquella de la Library of Congress), i carregar-ho al Millennium. Però amb una de les col.leccions que hem fet, s'ha catalogat al mateix moment en DC a la MDC i en marc a Millennium. Li envio còpia del missatge a Àngels Bonson de Procés Tècnic, per si hi vol afegir alguna cosa.

Anem avançant a poc a poc en el tema.

Fins aviat i salutacions

i Àngels Bonson (18/06/2009)

Hola Cristina,

Efectivament, en el cas dels cartells del dissenyador Josep Artigas, col·lecció que no haviem catalogat, els catalogadors van fer a l'hora el registre del cartell digital en la MDC (amb enllaç al catàleg) i el del document gràfic imprés en Millennium (amb enllaç a la imatge). En aquests casos, crec que és el procediment més ràpid i fiable.

En un parell de col·leccions de la MDC hem fet proves, com diu la Judit, a base d'un programa de conversió que el Josep Sau, l'informàtic, va clonant i retocant, en funció del mapatge DC/Marc21 ajustat a la descripció i característiques de cada col·lecció. Els resultats són bons, però no hem fet encara cap càrrega massiva a Mil·lennium dels registres Marc 21 resultants. El Josep diu sempre que és un procés molt manual i que el Millennium és molt limitat a l'hora de fer aquest tipus de descàrregues. A veure si podem avançar en aquest terreny.

Molts records

Àngels

CA Actualitzat per Cristina Azorin fa més de 16 anys Accions #14

  • Assignat a ha canviat de Javier Planella a Oskar Hernández

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #15

La versió 0.99 d'Invenio té un altre tipus de format de sortida que en diuen «Excel» i que, pel he pogut veure (no gaire encara) és bàsicament un format tabulat. Si, pel que sembla, contentDM el que accepta és un format tabulat, potser aquest «Excel» de la versió 0.99 ens podrà servir quan la instal·lem (tasca # .

De tota manera, un dels misteris que en el seu moment no vaig desentrellar de contentDM és quins camps ha de tenir aquest format tabulat, què passa quan un camp està repetit (ex., més d'un autor), no existeix (ex., cap autor), etc.

Ho dic perquè averiguar aquesta part, és a dur, què és el que necessita contentDM per importar tabulat, i/o concretament, què és el que necessita la configuració de la MDC de contentDM continua essent imprescindible.

CA Actualitzat per Cristina Azorin fa més de 16 anys Accions #16

  • Tema ha canviat de Exportacions massives del DDD per al CONTENTdm a Exportacions massives del DDD per al CONTENTdm. NOVEMBRE

CA Actualitzat per Cristina Azorin fa més de 16 anys Accions #17

  • Tema ha canviat de Exportacions massives del DDD per al CONTENTdm. NOVEMBRE a Exportacions massives del DDD per al CONTENTdm. NOVEMBRE09

CA Actualitzat per Cristina Azorin fa quasi 16 anys Accions #18

Correu de la Sandra Reoyo 27/05/2010

Benvolguts/des,

Com alguns de vosaltres ja sabeu, des de fa temps hem estat treballant per a poder carregar metadades i/o dades en les col·leccions de l'MDC de manera semi-automàtica. Us adjuntem el procediment que hem establert i que us servirà a aquelles institucions que vulgueu exportar les metadades i/o dades de les col·leccions del vostre repositori o bases de dades susceptibles d'importar a l'MDC.

Per a qualsevol aclariment no dubteu en contactar amb nosaltres. Cordialment,

Sandra Reoyo Tudó

Responsable de repositoris cooperatius

Consorci de Biblioteques Universitàries de Catalunya

www.cbuc.cat

Gran Capità, 2-4

Edifici NEXUS, 3a planta, despatx 301

08034 Barcelona

Tel.: 93 567 98 09 (directe) / 93 567 98 00

Fax: 93 205 69 79

a/e:

Pujo el fitxer adjunt en aquesta tasca.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #19

Cristina,

acabo de mirar-me el document !FormatImportacio_1005.pdf adjunt. La veritat, ensenyar-nos com fer un fitxer tabulat amb Excel no crec que sigui el que més ens preocupa. Al menys a mi.

El que entenc que necessitem és:

  • Quins camps accepta !ContentDM? Si en trobem a faltar algun, com ho negociem?
  • Com s'han de dir els camps? Si es poden dir de qualsevol manera, com documentem quin són els equivalents al ContentDM?
  • Quins són imprescindibles?
  • L'ordre dels camps és rellevant? Ja veig que el darrer ha de ser el del document, però i els altres?
  • Com codificar els camps repetits? Quants cops es pot repetir?
  • Hi podem posar algun tipus d'identificador del registre en el nostre dipòsit (com la 035 en Marc21)?
  • Com indiquem que el registre té més d'un document associat? Perquè per la documentació, sembla que només en pot tenir un.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #20

  • Assignat a ha canviat de Oskar Hernández a Cristina Azorin

CA Actualitzat per Cristina Azorin fa més de 15 anys Accions #21

Ferran,

de moment no tenim la necessitat de carregar col·leccions del DDD al Contendm i potser totes aquestes preguntes s'hauran de fer en el moment que tinguem un cas en concret. Els camps que accepta el contenDM els pot aprovar qui obre la col·lecció i en funció de les necessitats, no tinc tan clar que hi puguem afegir camps propis.

En tot cas en aquests moments hauríem de prioritzar l'exportació de registres de la MDC al DDD, està oberta la tasca: http://wikis.bib.uab.cat/DDD/ticket/292

CA Actualitzat per Cristina Azorin fa més de 15 anys Accions #22

  • Tema ha canviat de Exportacions massives del DDD per al CONTENTdm. NOVEMBRE09 a Exportacions massives del DDD per al CONTENTdm.

CA Actualitzat per Cristina Azorin fa quasi 15 anys Accions #23

Ara la Biblioteca d'Humanitats sí que té interès en posar les seves col·leccions de fons personals a la MDC. Caldria tornar a reprendre el tema quan puguem.

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #24

  • Estat ha canviat de Creada a Tancada

Resolt a la tasca #1471.

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #25

  • Categoria s'ha establert a Gestió de la col·lecció
Accions

També disponible a: PDF Atom