Tasca #1159
tancatRepassar les càrregues de Recercat
Afegit per Ferran Jorba fa quasi 15 anys. Actualitzat fa aproximadament 6 anys.
Descripció
Ens hem adonat que les càrregues de Recercat al DDD no són completes. Cal averiguar per què, arreglar-ho i carregar els que no hi són.
Fitxers
| recercat_a2011m3d31.txt (22.2 KB) recercat_a2011m3d31.txt | Llistat d'errors dels registres OAI de Recercat recol·lectats al DDD | Ferran Jorba, 31-03-2011 17:47 | |
| recercat_a2011m4d4.txt (11.7 KB) recercat_a2011m4d4.txt | Llistat dels errors despres de la recol·lecta sistematica dels registres no recollits | Ferran Jorba, 04-04-2011 15:32 |
Tasques relacionades 2 (0 obertes — 2 tancades)
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #1
Hem vist que part d'això és degut a caràcters de control en els registres Dublin Core de Recercat, segurament degut a algun copiar-i-enganxar en el moment de la catalogació.
També deu haver-hi algun altre problema amb la identificació OAI extern (el del Recercat) al DDD, i per tant ha creat alguns registres bibliogràfics duplicats en el DDD, però sense un duplicat del PDF.
Alguns exemples de registres Recercat que no hi són al DDD, que estan bé (un sol identificador al DDD) i alguns duplicats:
- 'oai:www.recercat.net:2072/51240': 69273,
- 'oai:www.recercat.net:2072/51305': ,
- 'oai:www.recercat.net:2072/51306': ,
- 'oai:www.recercat.net:2072/51324': ,
- 'oai:www.recercat.net:2072/51340': 69274,
- 'oai:www.recercat.net:2072/51379': 69275,
- 'oai:www.recercat.net:2072/51380': 69276,
- 'oai:www.recercat.net:2072/5156': 45392, 69233,
- 'oai:www.recercat.net:2072/52629': 69277,
- 'oai:www.recercat.net:2072/5274': 45404, 69236,
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #2
D'altra banda, durant la darrera collita no es ban baixar correctament alguns dels PDFs:
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #3
Acabo d'adjuntar el fitxer amb els errors trobats a dia d'avui. Resumint:
- 314 registres de Recercat no carregats al DDD
- 62 que estan duplicats al DDD. Duplicats els registres bibliogràfics, els documents (els PDFs) només hi són un cop.
D'altra banda, em surten 35 PDFs no descarregats.
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #4
Els 35 PDFs no descarregats ja estan pujats.
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #5
Ho he consultat amb el CERN i el problema té uns quants aspectes:
D'una banda, el programa de transformació de Dublin Core a Marcxml és poc tolerant a errors, de manera que si hi ha algun caràcter ASCII dolent en el registre original, la transformació falla. Per tant, els registres que venen al darrera no es carreguen. He fet que el programa no peti per caràcters extranys, i he enviat al CERN la millora perquè l'incloguin a versions posteriors.
D'altra banda, hem après que hi ha una sola data d'actualització ''per dipòsit recol·lectat''. Això vol dir que si marquem un OAI set per recol·lectar que ja tenia registres ''antics'', aquests registres no es recol·lecten, perquè són més antics que la darrera data de recol·lecta. He fet la petició al CERN perquè hi hagi una data de darrera recol·lecta ''per oai set''.
Finalment, he millorat el programa que fa el llistat d'errors perquè em baixi els registres en Dublin Core i els passi a Marcxml. Avui, dilluns 4 d'abril del 2011, n'he trobat 294. Ara processaré aquests registres com si els hagués recol·lectat amb normalitat, baixant-me els PDFs i completant la traducció a Marcxml.
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #6
A resultes de tot això, m'estic plantejant que el OAI set original del Recercat, que ara l'estem guardant com a 035 $b, segurament no és un bon lloc, per aquests motius:
- Invenio mira si un registre existeix o no al dipòsit mirant que coincideixi tant el $a com el $9 de la 035. Per tant, si un document apareix en més d'una col·lecció de Recercat, ens pot aparèixer duplicat al DDD.
- Si a la llarga volem fer col·leccions virtuals per departaments, és més natural posar el codi a la 980 $b, com totes les altres, perquè així forma part de l'índex COLLECTION, que no en una 035, que és un identificador extern.
De moment, fins que no ho haguem consensuat amb la Cristina, ho continuo deixant com a 035 $9, però estic força convençut que no és correcte.
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #7
Ja estan carregats tots els registres antics pendents i esborrats els registres duplicats.
També he adaptat Invenio perquè no peti per uns simples caràcters de control. O sigui, que per culpa d'aquest tema no hauria de tornar a passar.
Deixaré la recol·lecta setmanal i ho tindré en observació.
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #8
Ah, també tinc el script que ens permeterà repassar, per Recercat o altres servidors OAI si tenim errors com els que hem detectat a Recercat.
FJ Actualitzat per Ferran Jorba fa quasi 15 anys Accions #9
Cal tornar-lo a passar per una nova col·lecció que no hem agafat a temps.
CA Actualitzat per Cristina Azorin fa quasi 15 anys Accions #10
Hem fet algunes correccions a Recercat i pensem que no s'estan passant automàticament al DDD, registre d'exemple (l'autor estava amb sigles):
- a Recercat http://www.recercat.net/handle/2072/64563
- al DDD http://ddd.uab.cat/record/69843
FJ Actualitzat per Ferran Jorba fa quasi 14 anys Accions #11
- Temàtica prevista ha canviat de OAI: servidor a OAI: recol·leccions
FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #12
- Data de venciment s'ha establert a 31-10-2012
FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #13
- Inici s'ha establert a 01-07-2011
FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #14
- Estat ha canviat de Creada a En curs
FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #15
La recol·lecta s'estava quedant penjada a l'oai set hdl_2072_1177 (Prepublicacions del Centre de Recerca Matemàtica). Com que després de fer unes quantes proves no l'he sabut desencallar, de moment l'he eliminat de la llista dels oai sets a recol·lectar.
Amb això he fet una recol·lecta sencera i continuo fent tot el cicle (enriquir els registres, baixar una còpia dels documents, etc).
CA Actualitzat per Cristina Azorin fa més de 13 anys Accions #16
No se si això hi pot tenir alguna cosa a veure:
-------- Missatge original --------
Assumpte: Re: Noves col·leccions del Centre de Recerca Matemàtica
Data: Mon, 30 Jul 2012 14:32:08 +0200
De: Sandra Reoyo Tudó <sreoyo@cbuc.cat>
A: Oriol Fernandez <ofernandez@crm.cat>
CC: Cristina Azorin <Cristina.Azorin@uab.cat>
Bona tarda,
Els documents que constaven a dia d'avui a "Universitat Autònoma de Barcelona > Centre de Recerca Matemàtica" (www.recercat.cat/handle/2072/1176) ja estan copiats a "Centres de Recerca de Catalunya (CERCA) > Centre de Recerca Matemàtica" (http://www.recercat.cat/handle/2072/199267).
Fins aviat,
Sandra
FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #17
N'he carregat més de 100, però amb els darrers canvis de Recercat no trobo la manera de recollir el camp «Description» dels documents (el nostre 856 $3).
Aquest valor només s'exporta en les pantalles HTML, però no hi ha cap marca que permeti distingir-lo de la resta dels valors de la pàgina. Vegeu:
Ho deixo pendent, i continuo amb la càrrega d'uns quants més.
FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #18
Continuo carregant Recercat, de 100 en 100. Això farà que el entre divendres i avui DDD creixi en uns 2800 registres, que són els que estaven a la col·lecció http://ddd.uab.cat/collection/recercat (pendents de repassar).
El més intrigant és que, com que tota aquesta moguda es deu a l'actualtizació del DSpace de Recercat, i el canvi de domini a .cat (només la interfície web, el servidor oai, curiosament, encara està sota .net), durant un temps, uns centenars de documents que havíen estat publicats al DDD, degut a la política OAI d'actualitzar els registres locals quan els remots han estat modificats, de cop i volta van desaparèixer de les col·leccions públiques del DDD (working papers, estudis, treballs de recerca, etc), van quedar sota aquesta col·lecció oculta, i a més, es va esborrar (temporalment) la 856. Uns exemples:
- http://ddd.uab.cat/usage.py?c=worpap&report=contents
- http://ddd.uab.cat/usage.py?c=estudis&report=contents
- http://ddd.uab.cat/usage.py?c=trerecpro&report=contents
Tot això és el que ara mateix estic arreglant, automàticament, de 100 en 100, però com que implica una indexació del text complet, que havia desaparegut dels índexos de text complet (ja que la 856 havia desaparegut amb l'actualització dels registres).
Quedarà encara trobar la manera per recuperar el $3 de les 856, que amb el canvi a Recercat no he trobat la manera de fer-ho automàticament. He preferit, de moment, tirar pel dret i fer una recuperació massiva.
FJ Actualitzat per Ferran Jorba fa més de 13 anys Accions #19
Uf, ja estan tots carregats i a les col·leccions corresponents.
Falta encara recuperar els $3. Per això no tanco la tasca.
FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #20
- Tasca pare s'ha establert a #2439
FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #21
- Tema ha canviat de Repassar les càrregues de Recercat a Redefinir i reimplementar les càrregues de Recercat
FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #22
- Tema ha canviat de Redefinir i reimplementar les càrregues de Recercat a Repassar les càrregues de Recercat
FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #23
- Estat ha canviat de En curs a Tancada
Tasca principal tancada. Continua un tema específic a #2449
FJ Actualitzat per Ferran Jorba fa més de 12 anys Accions #24
- Data de venciment ha canviat de 04-03-2015 a 31-12-2013
PR Actualitzat per Pere Roca fa més de 12 anys Accions #25
- Tasca pare s'ha suprimit (
#2439)
CA Actualitzat per Cristina Azorin fa aproximadament 6 anys Accions #26
- Tipus de tasca ha canviat de Defecte a Tasca