Projecte

General

Perfil

Accions

Tasca #1162

tancat
FJ FJ

Adaptar la recol·lecta de les tesis del sistema antic a DSpace - PRJ152

Tasca #1162: Adaptar la recol·lecta de les tesis del sistema antic a DSpace - PRJ152

Afegit per Ferran Jorba fa quasi 15 anys. Actualitzat fa aproximadament 9 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Tecnologia
Temàtica prevista:
Inici:
Data de venciment:
28-04-2016
Paraula clau:

Descripció

El canvi es farà el 18 d'abril del 2011:


Benvolguts/des,

Com la majoria ja sabeu, el proper dilluns 18 d'abril posarem en funcionament el nou TDX amb DSpace. De moment el podeu veure a: http://tdx.test.cesca.es/.

Amb motiu d'aquest canvi es modificaran les adreces de l'OAI-PMH i el contingut d'algunes metadades ja que les hem adaptat a DRIVER. Per tal d'intentar que això tingui els mínims efectes en la recol·lecció que feu de TDX en els repositoris locals us en donem més informació per a que pugueu preparar el canvi.

Actualment existeix una adreça OAI-PMH per universitat. Per exemple:

http://www.tdx.cesca.es/TDX_UB/NDLTD-OAI/oai.pl?verb=Identify

Amb el nou TDX aquestes adreces deixaran de ser vàlides i es disposarà d'una única adreça OAI-PMH per a tot el repositori:

http://www.tdx.cat/oai/request?verb=Identify (de moment, en test a http://84.88.13.203/oai/request?verb=Identify). Per accedir a les tesis de cada universitat es podrà fer a través del set corresponent:

http://www.tdx.cat/oai/request?verb=ListRecords&metadataPrefix=oai_dc&set=hdl_10803_x

(on "x" serà el número que es correspon amb la comunitat a TDX). Per exemple, ara l'adreça OAI-PMH de les tesis de la UB al TDX de Test és:

http://84.88.13.203/oai/request?verb=ListRecords&metadataPrefix=oai_dc&set=hdl_10803_1

I la UAB és:

http://84.88.13.203/oai/request?verb=ListRecords&metadataPrefix=oai_dc&set=hdl_10803_119

A partir del 18 d'abril cada universitat ja tindrà el seu número "x" assignat i podreu començar amb la nova recol·lecció. De moment us animem a que feu les proves amb l'OAI-PMH de test que trobareu a

http://84.88.13.203/oai/request?verb=Identify

per preveure qualsevol incidència i solucionar-la abans de la posada en funcionament.

Restem a la vostra disposició per a qualsevol dubte, aclariment, comentaris i suggeriments!

Cordialment,


Tasques relacionades 4 (0 obertes4 tancades)

relacionat amb DDD - Millora #470: Automatitzar la incorporació de les tesis del TDX al DDDTancadaFerran Jorba19-12-2014Accions
relacionat amb DDD - Tasca #2736: Substituir les 856 de les tesis de l'antic sistema del CBUC amb les noves del DSpaceTancadaFerran Jorba10-03-201401-11-2014Accions
relacionat amb DDD - Tasca #3010: Detectar i carregar les tesis que estan al TDX i no al DDDTancadaFerran Jorba17-07-2014Accions
relacionat amb DDD - Tasca #4832: Adaptar a Sierra l'extracció mensual de les tesisTancadaJavier Planella10-01-201822-02-2018Accions

FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #1

El TDX ja està en DSpace:

http://www.tdx.cat/

Potser també estaria bé canviar les «adreces alternatives» que tenim al DDD per a les noves.

Fet: tasca #2736

FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #3

  • Temàtica prevista ha canviat de Tasques informàtiques internes a OAI: recol·leccions

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #5

Suposo que és un format nou que han fet per a poder passar les tesis al catàleg col·lectiu, no deu estar a Recercat perquè no passen registres al CCUC, i no està a RACO perquè no és Dspace :-(

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #6

  • Estat ha canviat de Creada a En curs

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #7

Cristina Azorin va escriure:

Suposo que és un format nou que han fet per a poder passar les tesis al catàleg col·lectiu,

Suposo.

no deu estar a Recercat perquè no passen registres al CCUC, i no està a RACO perquè no és Dspace :-(

Efectivament, el Recercat no els té:

http://oai.recercat.cat/request?verb=ListMetadataFormats

Recordo que en alguna reunió de repositoris nosaltres vam mencionar a la Sandra si es podrien implementar aquests formats de sortida del tdx al Recercat, però no recordo qui havia de fer el primer pas, si ells o nosaltres. El més probable, però, és que ells no se n'enrecordin, ja que els (unics?) interessats seriem la UAB ;-)

Et sembla que li ho comentis tu, Cristina?

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #8

Acabo de carregar 10 tesis al ddd-test recollides via peticions OAI (en format marc_ccuc). Estrictament això és part de la tasca #3010, però prefereixo concentrar en aquesta els aspectes de tractament bibliogràfic. Són les 10 més recents de la col·lecció tesis:

http://ddd-test.uab.cat:2000/collection/tesis

En una primera fase només hi he afegit tres camps imprescindibles per al DDD: les 980, 035 i 762.

Ara es tractarà de veure com completem els camps que falten (p. ex., el resum en altres llengues, o el PDF), si és tot a partir del TDX o el catàleg ens hi pot aportar algun camp útil, o en corregeix o ens millor els que ja tenim via TDX.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #9

Ens ho hem estat mirant amb la Cristina i el nostre diagnòstic inicial és:

  1. En principi, i de moment, només agafarem registres nous, no les modificacions. Sobretot perquè de totes les tesis que ja tenim al DDD hi ha molta feina de normalització i de completar dades que no volem perdre.
  2. Quasi totes les dades que ens interessen pel DDD ja estan al TDX. Sembla que només ens hi faltarien les matèries de catàleg i l'identificador del catàleg.
  3. La codificació ccuc_marc que ofereix el TDX via OAI sembla correcte, i en principi l'agafem com a base. De tota manera, hem vist que només ofereix el resum en una sola llengua. Com que el Dublin Core hi és en totes, completariem el registre amb la 520 del Dublin Core.
  4. Cal resoldre els embargaments, sobretot per recollir els PDFs del TDX i desar-los en local al DDD. Això es pot fer a partir de les dates que ja hi tenim a les 856 del DDD.

L'extracció de les tesis del catàleg que ens prepararà el Javier Planella continua endavant, però ara per ara sembla menys urgent del que semblava pel que fa a tenir les tesis al DDD.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #10

N'he carregat 100 més al DDD de proves, més que res perquè sigui més fàcil trobar exemples per avaluar la qualitat de la catalogació al TDX:

http://ddd-test.uab.cat:2000/collection/tesis

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #11

He tornat a carregar les 100 tesis a test però ja amb els resums en totes les llengües i les etiquetes de drets (totes dues a partir del DC). A manca d'una repassada final i de valorar el que pugui donar de sí els registres de Millennium, diria que els registres bibliogràfics ja estan tan complets com dóna de sí el TDX.

Ara estic treballant en la baixada automàtica dels PDFs.

NC Actualitzat per Núria Casaldaliga fa més de 11 anys Accions #12

  • Estat ha canviat de En curs a Tancada

Tanquem la tasca perquè de fet ja donarem les dades a la tasca #470

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #13

  • Estat ha canviat de Tancada a En curs

Reobro aquesta tasca, perquè entenc que la que hauríem d'haver tancat és la #470, la que es referia a l'antic software pre-DSpace. Tota la informació i deliberacions de com fer-ho en DSpace està en aquesta tasca, no en aquella.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #14

  • Tema ha canviat de Adaptar la recol·lecta de les tesis del sistema antic a DSpace a Adaptar la recol·lecta de les tesis del sistema antic a DSpace - PRJ152

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #15

  • Paraula clau s'ha establert a JR cartera

FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys Accions #16

Estic repassant i me n'adono que les darreres dues setmanes s'han creat registres però sense 980, i per tant no eren visibles. Acabo d'afegir-hi manualment l'etiqueta 980 (crec que en sortirà al menys un duplicat) i miraré de corregir aquest error.

FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys Accions #17

La manca de 980 sembla relacionada amb un problema de conversió de diacrítics que crec que acabo de corregir. No he volgut fer la càrrega ara, durant el dia, perquè carregaria massa el sistema durant la indexació dels documents. L'he deixat per la matinada de demà i en repassaré el resultat.

FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys Accions #18

De moment, avui se n'ha carregat 100 correctament; deixaré per demà la resta:

http://ddd.uab.cat/collection/tesis

CA Actualitzat per Cristina Azorin fa aproximadament 11 anys Accions #19

Ara mateix hi ha 5.011 tesis a TDX i en canvi 4.969 al DDD, hi ha un registre sense camp 'identifier' i això ha frenat la càrrega de noves entrades.
Cal fer un sistema d'avís a l'administrador si la càrrega s'atura.

FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys Accions #20

Avui se n'han carregat 59 més. N'hi ha un que dóna un error al TDX quan el demano en format marc_ccuc per programa, però no via web, i que encara no entenc per què, i m'he de mirar amb més atenció:

CA Actualitzat per Cristina Azorin fa aproximadament 11 anys Accions #21

Ferran, seguint aquesta tasca acabo d'adonar-me que m'agradaria més que l'etiqueta 300 l'agafés de TDX, només el nombre de pàgines, i no del catàleg amb això que diu 1 recurs electrònic, que trobo que queda 'raro' al DDD on tot són recursos electrònics...

FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys Accions #22

Cristina Azorin va escriure:

Ferran, seguint aquesta tasca acabo d'adonar-me que m'agradaria més que l'etiqueta 300 l'agafés de TDX, només el nombre de pàgines, i no del catàleg amb això que diu 1 recurs electrònic, que trobo que queda 'raro' al DDD on tot són recursos electrònics...

Ja veig. De tota manera, ara mateix, del catàleg encara no estic agafant res, aquesta 300 és el que em dóna el TDX quan li demano el registre en format marc_ccuc, ex:

http://www.tdx.cat/oai/request?verb=GetRecord&metadataPrefix=marc_ccuc&identifier=oai:www.tdx.cat:10803/285576

Donat que el número de pàgines el tenim a la 856, i de vegades hi ha tesis amb més d'un document PDF, creus que val la pena aprofitar aquesta 300, o senzillament no la carrego? Els valors actuals d'aquesta 300 són:

http://ddd.uab.cat/search?cc=tesis&of=tm&ot=300&rg=999

Si no els vols, el que també tocaria fer (que ja me n'encarregaré jo) és esborrar els que ara mateix ja el tenen, com ho veus?

CA Actualitzat per Cristina Azorin fa aproximadament 11 anys Accions #23

És cert que al DDD ja hi són a la 856 i per a cada fitxer, que és més precís. També veig que no surten en el format DC... Però... això d'eliminar una etiqueta MARC així de cop, que sí tenim a tots els altres registres, que sí està al catàleg... i que potser serà útil en el cas de les exportacions en format cita per Mendeley... No se, no m'atreveixo.

Ja se que diràs, que tal com la treguis ara la podries tornar a posar si la necessitem, oi? :-)))

FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys Accions #24

Com que les tesis tenen PDFs amb molt de text, modificar els registres cada cop és lent, i per tant entenc que val la pena minimizar-ho. O sigui, que si creus que val la pena conservar la informació de les pàgines a la 300, millor fer-ho d'un sol cop, modificant-la i no pas esborrar-la per hipotèticament tornar-la a afegir.

CA Actualitzat per Cristina Azorin fa aproximadament 11 anys Accions #25

  • Data de venciment s'ha establert a 19-03-2015

CA Actualitzat per Cristina Azorin fa aproximadament 11 anys Accions #26

  • Prioritat ha canviat de Normal a Alta

FJ Actualitzat per Ferran Jorba fa quasi 11 anys Accions #27

Estic pendent de tenir disponibles les tesis exportades de Millenium per saber si hi ha alguna dada que ens falti al DDD. Ho he demanat al Javier.

FJ Actualitzat per Ferran Jorba fa quasi 11 anys Accions #28

El Javier me n'ha posat una extracció a http://websb.uab.cat/novetats_tdx/. Falta automatitzar-ne l'extracció periòdicament.

Malhauradament, el fet que al Millennium no hi hagi els handles (com sí que tenim al DDD) fa una mica més complicat lligar uns registres amb els altres. Utilitzaré la taula que ja va crear el Javier a la tasca #2736.

Un cop pugui accedir a tots els registres amb una única identificació em serà més fàcil saber qué agafem de Millennium que no tinguem ara amb el que ens arriba del TDX.

FJ Actualitzat per Ferran Jorba fa quasi 11 anys Accions #29

Ja tinc feta l'equivalència dels identificadors de Millennium als handles. Amb això ja tinc una base de dades de tesis TDX externa en les tres sintaxis: DC i marc_ccuc (tdx.cat) i marc21 (cataleg.uab.cat), i un identificador únic.

Ara ja puc comprovar d'una manera sistemàtica què tenim a Millennium que no tinguem a tdx.cat i/o al DDD.

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #30

  • Data de venciment ha canviat de 19-03-2015 a 30-11-2015
  • Prioritat ha canviat de Alta a Urgent

NC Actualitzat per Núria Casaldaliga fa més de 10 anys Accions #31

  • Categoria s'ha establert a Tecnologia
  1. # Ferran, fa falta que el Javier actualitzi aquesta taula mensualment http://websb.uab.cat/novetats_tdx/??

FJ Actualitzat per Ferran Jorba fa més de 10 anys Accions #32

Nuria Casaldaliga va escriure:

Ferran, fa falta que el Javier actualitzi aquesta taula mensualment http://websb.uab.cat/novetats_tdx/??

Sí, mensualment seria suficient, gràcies.

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #33

  • Assignat a ha canviat de Ferran Jorba a Javier Planella

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #34

Javier, quan ho tinguis fet ho podràs apuntar a la tasca i tornar-li a passar al Ferran per a enllestir-la del tot? Gràcies!

Ferran Jorba va escriure:

Nuria Casaldaliga va escriure:

Ferran, fa falta que el Javier actualitzi aquesta taula mensualment http://websb.uab.cat/novetats_tdx/??

Sí, mensualment seria suficient, gràcies.

JP Actualitzat per Javier Planella fa més de 10 anys Accions #35

Aquesta tasca no es pot automatzar, es te que generar mensualment

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #36

  • Data de venciment ha canviat de 30-11-2015 a 28-02-2015
  • Assignat a ha canviat de Javier Planella a Ferran Jorba

CA Actualitzat per Cristina Azorin fa més de 10 anys Accions #37

  • Data de venciment ha canviat de 28-02-2015 a 28-02-2016

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions #38

  • Prioritat ha canviat de Urgent a Immediata

JP Actualitzat per Javier Planella fa aproximadament 10 anys Accions #39

Exportació de totes les tesis TDX a Millennium: http://websb.uab.cat/novetats_tdx

CA Actualitzat per Cristina Azorin fa aproximadament 10 anys Accions #40

  • Data de venciment ha canviat de 28-02-2016 a 28-04-2016

Entenem que ara aquesta càrrega només es refereix a la càrrega corrent del TDX. S'hauria de prioritzar el registre del catàleg i només agafar del TDX el resum, l'identifier, el type, les etiquetes de drets (i la 762 que generem amb la col·lecció del DSpace). La llengua no tinc clar d'on és millor agafar-la, si del TDX o de la 008 del catàleg.

Exemple:

dc.identifier.uri http://hdl.handle.net/10803/321108
dc.language.iso eng
dc.rights.accessLevel info:eu-repo/semantics/openAccess
dc.rights.license L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.type info:eu-repo/semantics/doctoralThesis
dc.type info:eu-repo/semantics/publishedVersion
dc.description.abstract En esta tesis presenta....

FJ Actualitzat per Ferran Jorba fa quasi 10 anys Accions #41

Em sembla que ja ho tinc coll avall. Se m'havia complicat massa i he (re)començat de zero. N'he carregat 10 al DDD de proves: https://ddd-test.uab.cat:2000/collection/tesis

FJ Actualitzat per Ferran Jorba fa quasi 10 anys Accions #42

Crec que ara ja funcionen correctament. A diferència d'abans, aquest cop, i basant-me amb la idea de la Cristina, començo amb els registres de Millennium exportats pel Javier, i per a cadascun d'ells miro si ja el tenim al DDD. Els que no hi són, els completo de vàries maneres:

  • Els camps fixos (035, 540, 655, i 980) amb les que hem acordat.
  • L'enllaç a l'adreça alternativa (tdx.cat) el normalitzo com a handle, i els antics que no són handles, els hi faig la traducció segons la taula que em va passar el Javier.
  • De la sortida DublinCore del TDX agafo els resums en la segona i tercera llengua, perquè la primera ja hi és a Millennium, la 762 i la data d'embargament.
  • Els PDFs (o altres fitxers adjunts) de la sortida DIDL, que és la que em dóna l'adreça directa d'una manera mes fàcil de tractar (l'ORE és horrorós, i el METS sembla els encants!).

Ara ja n'he afegit una vintena al DDD públic: http://ddd.uab.cat/collection/tesis.

Deixaré que els acabi de carregar entre avui i demà, i ho deixo programat per cada dilluns, com abans. Quan acabi repassarem les inconsistències, com els registres que estan a un lloc però no a l'altre.

FJ Actualitzat per Ferran Jorba fa quasi 10 anys Accions #43

La càrrega de 100 tesis d'aquesta matinada s'ha fet sense adjuntar-hi els PDFs, perquè al darrer moment vaig fer un canvi que no tocava. Ho corregiré avui mateix.

FJ Actualitzat per Ferran Jorba fa quasi 10 anys Accions #44

Ja estan afegits els enllaços als PDFs locals que mancaven.

FJ Actualitzat per Ferran Jorba fa quasi 10 anys Accions #45

  • Estat ha canviat de En curs a Tancada

Repassant uns temes amb la Cristina, acabo de fer la darrera càrrega de les 18 tesis que estaven a Millennium i no al DDD.

CA Actualitzat per Cristina Azorin fa més de 9 anys Accions #46

  • Prioritat ha canviat de Immediata a Normal

CA Actualitzat per Cristina Azorin fa aproximadament 9 anys Accions #47

  • Paraula clau s'ha suprimit (JR cartera)

FJ Actualitzat per Ferran Jorba fa aproximadament 8 anys Accions #48

  • S'ha afegit relacionat amb Tasca #4832: Adaptar a Sierra l'extracció mensual de les tesis
Accions

També disponible a: PDF Atom