Tasca #564
tancatBibliogràfics: errors d'extracció de VTLS en registres llargs o en moltes etiquetes?
Descripció
No sabem si serà l'última, però tenim aquesta informació:
From: Jordi Pallares <jpallares@cbuc.es> Subject: Registres de TRACES To: Ferran Jorba <Ferran.Jorba@uab.cat>, Ramon Ros <rros@cbuc.es>, Jordi Pallarès <jpallares@cbuc.es> Date: Thu, 16 Jul 2009 11:50:18 +0200 Hola Ferran, Aquest matí (després de que el Bbuffer acabes la feina) he fet l'extracció dels registres que em vas demanar. Els registres estan a: http://docs.cbuc.cat/pqrev/<nomFitxer> RegsAutoritatsTRACESJuliol09.gz -> Registres autoritats RegsAutoritatsTRACESJuliol09Comp.gz -> Registres autoritats compactats (per si de cas...) RegsBibsTRACESJuliol09.gz -> Registres bibliografics RegsBibsTRACESJuliol09Com.gz -> Registres bibliografics Compactats Atentament Jordi Pallarès Llorens -- ***************************************** Jordi Pallarès Llorens jpallares@cbuc.es Consorci de Biblioteques Universitàries de Catalunya (CBUC) http://www.cbuc.es Tel: 93 205 13 06 ext.806 (NOU TELEFON) Fax: 93 205 01 50
Fitxers
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Avui he fet una càrrega, i amb la les conversions repassades.
CR Actualitzat per Cristina Riera fa més de 16 anys
Ferran, repassant l'última càrrega m'he trobat un error de conversió. Quan puguis mira't aquest exemple (registre 60162 en Traces proves i registre 60167 en el CCUC):
A traces proves: http://traces-test.uab.cat:2000/record/60162/export/hm
el registre al CCUC: http://traces.cbuc.es/cgi-bin/vtls.web.gateway?authority=0170-41880&conf=080000++++++++++++++
A traces proves, no hi ha les etiquetes 600, en format MARC. Tampoc es visualitzen tots els 520.
Bé, en parlem.
CR Actualitzat per Cristina Riera fa més de 16 anys
Ferran,
T'he adjuntat un document on llisto tots els camps que m'he pogut repassar de l'última conversió i on et comento problemes d'indexació i de visualització. Espero que et sigui útil.
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Cristina,
em temo que aquest registre no s'exporta bé de VTLS. Recordo vagament que en VTLS si una etiqueta es repetia més de n vegades, donava problemes. No sé quantes: 99?
Diacrítics a part, en Catmarc m'ha arribat així:
09075nab 2200925 450 008 080409 2007 W 000 cat 035 $a 0060-16760 245 10 $a 2006: commemoracions, premis, honors i guardons. Un resum de l'any li$ 513 00 $a Premis (del 2006, si no s'indica el contrari entre par<C9>ntesis): Jo$ 513 00 $a Ausi<C8>s March per 'Els joves i les v<D5>dues', de Carles Rebassa; E$ 513 00 $a Enric Valor per 'Cam<D5> o parany?', d'Enric Lluch; Vicent Andr<C5>s $ 590 00 $a Cultura i vida. Lletres 611 00 $a Premi Mallorca de narrativa $k 2006 611 00 $a Premi Mallorca de poesia $i 2n $k 2006 611 00 $a Premi Andr<CA>mina de narrativa $k 2006 $j Val<C9>ncia 611 00 $a Premi Vicent Andr<C5>s Estell<C5>s de poesia $k 2006 611 00 $a Premi Joan Fuster d'assaig $k 2006 $j Val<C9>ncia 611 00 $a Premi Bancaixa de narrativa juvenil $k 2006 611 00 $a Premi Vicent Silvestre de narrativa infantil $k 2006 611 00 $a Premi Fiter i Rossell de novel<F2>la $k 2006 611 00 $a Premi de Literatura Cient<D5>fica $i 11<C9> $k 2006 611 00 $a Premi N<C5>stor Luj<C4>n de novel<F2>la hist<CA>rica $i 10<C9> $k 2006 611 00 $a Premi Ibn Jafadja de poesia $i 1r $k 2006 611 00 $a Premi M<C8>rius Torres de poesia $i 11<C9> $k 2006 611 00 $a Premi Pin i Soler de narrativa $k 2006 $j Tarragona 611 00 $a Premi Ramon Comas i Maduell de poesia $k 2006 $j Tarragona 611 00 $a Premi Tinet $i 6<C9> $k 2006 $j Tarragona 611 00 $a Premi Vidal Alcover de traducci<C6> $k 2006 611 00 $a Premi Rovira i Virgili d'assaig $i 17<C9> $k 2006 611 00 $a Premi Documenta de narrativa $k 2006 611 00 $a Premi Born de teatre $k 2006 611 00 $a Premi Josep M. Folch i Torres de novel<F2>les per a nois i noies $k 2$ 611 00 $a Premi Constant<D5> Llombart de narrativa $k 2006 $j Val<C9>ncia 611 00 $a Premi Ro<D5>s de Corella de poesia $k 2006 611 00 $a Premi Ciutat de Val<C9>ncia de teatre $k 2006 $j Val<C9>ncia 611 00 $a Premi Octavi Pellissa $k 2006 611 00 $a Premi Enric Valor de narrativa juvenil $k 2006 611 00 $a Premi Vicent Andr<C5>s Estell<C5>s de narrativa $i 1r $k 2006 $j Burj$ 611 00 $a Premi Vicent Andr<C5>s Estell<C5>s de poesia $k 2006 $j Burjassot 611 00 $a Premi Sant Jordi de novel<F2>la $k 2006 611 00 $a Premi Merc<C9> Rodoreda $i 8<C9> $k 2006 $j Barcelona 611 00 $a Premi Carles Riba de poesia $k 2006 611 00 $a Premi Ciutat de Barcelona de literatura catalana $k 2005 611 00 $a Premi Ciutat de Barcelona de traducci<C6> $k 2005 611 00 $a Premi Cavall Verd de poesia $k 2006 611 00 $a Premi Cavall Verd de traducci<C6> $k 2006 611 00 $a Premi Salamb<C6> de narrativa catalana $k 2n $k 2005 611 00 $a Premi Crexells de novel<F2>la $i 34<C9> $k 2005 611 00 $a Premi Maria <A1>ngels Anglada de narrativa $i 3r $k 2006 $j Figueres 611 00 $a Premi Cr<D5>tica Serra d'Or de novel<F2>la $k 2006 611 00 $a Premi Cr<D5>tica Serra d'Or de poesia $k 2006 611 00 $a Premi Cr<D5>tica Serra d'Or de narraci<C6> $k 2006 611 00 $a Premi Cr<D5>tica Serra d'Or d'assaig $k 2006 611 00 $a Premi Cr<D5>tica Serra d'Or de dietari $k 2006 611 00 $a Premi Cr<D5>tica Serra d'Or d'obra completa $k 2006 611 00 $a Premi de la Cr<D5>tica de narrativa $k 2005 611 00 $a Premi de la Cr<D5>tica de poesia $k 2005 611 00 $a Lletra d'Or $k 2006 611 00 $a Premi Brigada 21 $k 2006 611 00 $a Premi Traject<CA>ria $k 2006 611 00 $a Premi Jaume Fuster dels escriptors en llengua catalana $i 6<C9> $k 20$ 611 00 $a Premi d'Honor de les Lletres Catalanes $k 2006 611 00 $a Premi Nacional de Literatura $k 2006 611 00 $a Premi Atl<C8>ntida $k 2006 650 00 $a Premis literaris 650 09 $a 2006 650 00 $a Novel<F2>la catalana 650 00 $a Poesia catalana 650 00 $a Literatura juvenil 650 00 $a Teatre catal<C8> 650 00 $a Literatura infantil 650 00 $a Prosa catalana 650 00 $a Dietari 650 00 $a Assaig 650 00 $a Conte catal<C8> 650 00 $a Novel<F2>la negra 655 00 $a Informaci<C6> 659 00 $a 2006 659 00 $a 2000X 773 00 $t Serra d'Or $d Barcelona, n<C7>m. 567 (2007, Mar<B5>), p. 36-39
CR Actualitzat per Cristina Riera fa més de 16 anys
Ferran, no sé quin límit d'etiquetes té Vtls. El que sí que et puc dir és que en poquíssimes ocasions ens hem excedit en la longitud d'un registre, i és el programa mateix que ens no permetia continuar entrant dades. De totes maneres, en la primera exportació d'aquest registre es veien algunes etiquetes 600 i ara veig que no. Registres com aquest Traces en té moltíssims. Tens cap idea de com ho podem solucionar?
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Còpia de la petició al CBUC:
From: Ferran Jorba <Ferran.Jorba@uab.cat> Subject: Límit de 99 (?) etiquetes repetides en l'extracció de VTLS To: Ramon Ros <rros@cbuc.es>, Jordi Pallares <jpallares@cbuc.es> Cc: Cristina.Riera@uab.cat, Magda.Alemany@uab.cat Date: Tue, 28 Jul 2009 13:12:39 +0200 Hola Ramon i Jordi, ja sé que el Jordi està de vacances, però he cregut que és millor fer-ho per escrit a tots dos que per telèfon al Ramon. La Cristina se n'ha adonat que alguns registres no s'han carregat complerts a Invenio. He ressegit el problema i he vist que no m'ha arribat complet a mi, probablement perquè no s'ha extret complert de VTLS, segurament per algun límit del programa d'extracció de VTLS. El registre amb el que s'ha trobat la Cristina està detallat aquí: http://wikis.bib.uab.cat/Traces/ticket/20#change_1 (registre 0060-16760) He pensat que si a més d'una extracció «normal» (iso2709) poguéssiu planificar un bolcat marcprt dels registres (si no peta!), nosaltres podríem detectar-los i recuperar les dades ja amb Invenio. Com ho veueu? Gràcies, Ferran
CR Actualitzat per Cristina Riera fa més de 16 anys
Ferran,
He comptat les etiquetes del registre 0060-16760 perquè potser dóna pistes d'on pot estar o no el problema d'exportació: hi ha 87 etiquetes 600 que no s'han transferit; de les 82 611, les 19 primeres no s'han transferit, la resta, sí. Tampoc s'han transferit cap de les 5 610 que hi ha. En aquest cas, no superem el 99, si aquest és el límit.
També passa el mateix en el registre 52-84460 (Traces en proves)i 52-94960 (CCUC)
- 52-84460: http://traces-test.uab.cat:2000/record/52844/export/hm
- 52-94960: http://traces.cbuc.es/cgi-bin/vtls.web.gateway?authority=0157-45480&conf=080000++++++++++++++
FJ Actualitzat per Ferran Jorba fa més de 16 anys
- Tema ha canviat de Extracció del 16 de juliol del 2009 a Errors d'extracció de VTLS en registres llargs o en moltes etiquetes?
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Continuem en contacte amb el CBUC per veure com podem detectar automàticament quins són els registres incomplerts i com extreure'ls d'alguna manera alternativa per a no perdre dades.
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Cristina,
el Jordi del CBUC ja m'ha extret tota la vostra base de dades en un format alternatiu, equivalent a la presentació del registre MARC en pantalla de VTLS. Amb aquesta segona extracció, he fet aquesta operació:
- Per a cadascun dels registres, comptar quantes etiquetes de cada hi ha.
- Per a cadascuna de les dues extraccions (iso2709 i visualtizació Marc), comparar les diferències d'etiquetes.
El resultat és aquest:
http://traces-test.uab.cat:2000/cbuc/iso2709-marcprt.marctags.diff.txt
Tot i que reconec que és una mica críptic (ja te l'explicaré a la propera visita), sí que serveix per saber si es poden detectar automàticament els registres extrets incomplerts de VTLS. I jo diria que sí, que serveix. Els dos bib-ids que menciones més amunt d'aquesta tasca hi són:
- 0060-16760
- 0052-84960
Si trobes algun altre registre incomplert, mira si us plau si el bib-id de VTLS aparaeix en el llistat que menciono més amunt. Si hi és, les dades les tenim i ja mirarem de completar els registres a posteriori.
CR Actualitzat per Cristina Riera fa més de 16 anys
D'acord Ferran, ja hi faré una ullada. Un dubte: per què l'extracció comença al registre 18-06260?
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Cristina,
no, no comença pel 0018-06260; aquest és el primer registre que troba diferent (en el sentit que el número d'etiquetes per a cadascuna de les extraccions no és la mateixa) entre les dues extraccions. El que despista és que hi ha 11 registres seguits (11 signes «-», seguits de 11 signes «+») diferents.
Si no ho veus clar, ja t'explicaré com interpretar aquest resultat quan vinguis.
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Cristina,
ja he automatitzat la comparació de les dues extraccions, l'aïllament dels bib-ids dels registres incomplerts i la publicació en format Catmarc de visualització dels 86 registres (de moment) que caldrà completar a posteriori.
- El resultat està a: http://traces-test.uab.cat:2000/cbuc/
- El fitxer que de debò us interessa és aquest: http://traces-test.uab.cat:2000/cbuc/incomplerts.marcprt
FJ Actualitzat per Ferran Jorba fa més de 16 anys
La proposta acordada amb el CBUC és fer extraccions paral·leles en iso2709 (per a la conversió a Marc21) i en marctag (per a la comprovació i completar manualment els registres incomplerts) cada quinze dies.
Ara estem esperant que ens donin indicacions de com recollir aquestes extraccions.
FJ Actualitzat per Ferran Jorba fa més de 16 anys
- Tema ha canviat de Errors d'extracció de VTLS en registres llargs o en moltes etiquetes? a Bibliogràfics: errors d'extracció de VTLS en registres llargs o en moltes etiquetes?
FJ Actualitzat per Ferran Jorba fa més de 16 anys
D'acord amb el CBUC, ens faran una extracció quinzenal a http://docs.cbuc.cat/traces/ de:
- Els registres bibliogràfics més grans que el 65000 en iso2709 i en marcprt
- Tots els registres d'autoritats en iso2709 i els seus codis (authority-ids).
Amb això completarem la còpia que tenim ara, servirà de pla de contingència en cas d'avaria greu de la màquina actual del CBUC amb VTLS i ens permeterà migrar una mica quan ho tinguem a punt.
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Per part nostra, els registres que detectem incomplerts els depositem a http://traces-test.uab.cat:2000/cbuc/. Com que són relativament pocs (85 ara mateix), no sembla ser necessari un tractament automàtic. Molt probablement es corregiran manualment un cop migrats definitivament a Invenio.
FJ Actualitzat per Ferran Jorba fa més de 16 anys
La primera actualització ja està carregada a http://traces-test.uab.cat:2000/collection/tracesbib i els registres incomplerts a http://traces-test.uab.cat:2000/cbuc/
CR Actualitzat per Cristina Riera fa més de 16 anys
Ferran, com és que a la base de dades en proves (http://traces-test.uab.cat:2000/?ln=es) hi ha 67.174 registres?
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Cristina,
no ha de ser així? No estaràs confonent els bibliogràfics, que són 66.026? (http://traces-test.uab.cat:2000/collection/tracesbib)
FJ Actualitzat per Ferran Jorba fa més de 16 anys
- Assignat a ha canviat de Ferran Jorba a Cristina Riera
FJ Actualitzat per Ferran Jorba fa més de 16 anys
Com que seran correccions posteriors, el canvio de milestone i propietari.
CR Actualitzat per Cristina Riera fa més de 16 anys
- Estat ha canviat de Creada a Tancada