Projecte

General

Perfil

Accions

Tasca #564

tancat
FJ CR

Bibliogràfics: errors d'extracció de VTLS en registres llargs o en moltes etiquetes?

Tasca #564: Bibliogràfics: errors d'extracció de VTLS en registres llargs o en moltes etiquetes?

Afegit per Ferran Jorba fa més de 16 anys. Actualitzat fa aproximadament 12 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Inici:
Data de venciment:
Paraula clau:

Descripció

No sabem si serà l'última, però tenim aquesta informació:

From: Jordi Pallares <jpallares@cbuc.es>
Subject: Registres de TRACES
To: Ferran Jorba <Ferran.Jorba@uab.cat>, Ramon Ros <rros@cbuc.es>,
 Jordi Pallarès <jpallares@cbuc.es>
Date: Thu, 16 Jul 2009 11:50:18 +0200

Hola Ferran,

Aquest matí (després de que el Bbuffer acabes la feina) he fet
l'extracció dels registres que em vas demanar.

Els registres estan a:
http://docs.cbuc.cat/pqrev/<nomFitxer>

RegsAutoritatsTRACESJuliol09.gz -> Registres autoritats
RegsAutoritatsTRACESJuliol09Comp.gz -> Registres autoritats compactats
(per si de cas...)

RegsBibsTRACESJuliol09.gz -> Registres bibliografics

RegsBibsTRACESJuliol09Com.gz -> Registres bibliografics Compactats

Atentament
Jordi Pallarès Llorens

-- 

*****************************************

Jordi Pallarès Llorens
jpallares@cbuc.es

Consorci de Biblioteques Universitàries de Catalunya (CBUC)
http://www.cbuc.es

Tel: 93 205 13 06 ext.806 (NOU TELEFON)
Fax: 93 205 01 50

Fitxers

Conversió 16 de juliol.doc (39.5 KB) Conversió 16 de juliol.doc Cristina Riera, 27-07-2009 09:56

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #1

Avui he fet una càrrega, i amb la les conversions repassades.

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #2

Ferran, repassant l'última càrrega m'he trobat un error de conversió. Quan puguis mira't aquest exemple (registre 60162 en Traces proves i registre 60167 en el CCUC):

A traces proves: http://traces-test.uab.cat:2000/record/60162/export/hm

el registre al CCUC: http://traces.cbuc.es/cgi-bin/vtls.web.gateway?authority=0170-41880&conf=080000++++++++++++++

A traces proves, no hi ha les etiquetes 600, en format MARC. Tampoc es visualitzen tots els 520.

Bé, en parlem.

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #3

Ferran,

T'he adjuntat un document on llisto tots els camps que m'he pogut repassar de l'última conversió i on et comento problemes d'indexació i de visualització. Espero que et sigui útil.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #4

Cristina,

em temo que aquest registre no s'exporta bé de VTLS. Recordo vagament que en VTLS si una etiqueta es repetia més de n vegades, donava problemes. No sé quantes: 99?

Diacrítics a part, en Catmarc m'ha arribat així:

09075nab  2200925   450
008 080409 2007            W    000    cat
035    $a 0060-16760
245 10 $a 2006: commemoracions, premis, honors i guardons. Un resum de l'any li$
513 00 $a Premis (del 2006, si no s'indica el contrari entre par<C9>ntesis): Jo$
513 00 $a Ausi<C8>s March per 'Els joves i les v<D5>dues', de Carles Rebassa; E$
513 00 $a Enric Valor per 'Cam<D5> o parany?', d'Enric Lluch; Vicent Andr<C5>s $
590 00 $a Cultura i vida. Lletres
611 00 $a Premi Mallorca de narrativa $k 2006
611 00 $a Premi Mallorca de poesia $i 2n $k 2006
611 00 $a Premi Andr<CA>mina de narrativa $k 2006 $j Val<C9>ncia
611 00 $a Premi Vicent Andr<C5>s Estell<C5>s de poesia $k 2006
611 00 $a Premi Joan Fuster d'assaig $k 2006 $j Val<C9>ncia
611 00 $a Premi Bancaixa de narrativa juvenil $k 2006
611 00 $a Premi Vicent Silvestre de narrativa infantil $k 2006
611 00 $a Premi Fiter i Rossell de novel<F2>la $k 2006
611 00 $a Premi de Literatura Cient<D5>fica $i 11<C9> $k 2006
611 00 $a Premi N<C5>stor Luj<C4>n de novel<F2>la hist<CA>rica $i 10<C9> $k 2006
611 00 $a Premi Ibn Jafadja de poesia $i 1r $k 2006
611 00 $a Premi M<C8>rius Torres de poesia $i 11<C9> $k 2006
611 00 $a Premi Pin i Soler de narrativa $k 2006 $j Tarragona
611 00 $a Premi Ramon Comas i Maduell de poesia $k 2006 $j Tarragona
611 00 $a Premi Tinet $i 6<C9> $k 2006 $j Tarragona
611 00 $a Premi Vidal Alcover de traducci<C6> $k 2006
611 00 $a Premi Rovira i Virgili d'assaig $i 17<C9> $k 2006
611 00 $a Premi Documenta de narrativa $k 2006
611 00 $a Premi Born de teatre $k 2006
611 00 $a Premi Josep M. Folch i Torres de novel<F2>les per a nois i noies $k 2$
611 00 $a Premi Constant<D5> Llombart de narrativa $k 2006 $j Val<C9>ncia
611 00 $a Premi Ro<D5>s de Corella de poesia $k 2006
611 00 $a Premi Ciutat de Val<C9>ncia de teatre $k 2006 $j Val<C9>ncia
611 00 $a Premi Octavi Pellissa $k 2006
611 00 $a Premi Enric Valor de narrativa juvenil $k 2006
611 00 $a Premi Vicent Andr<C5>s Estell<C5>s de narrativa $i 1r $k 2006 $j Burj$
611 00 $a Premi Vicent Andr<C5>s Estell<C5>s de poesia $k 2006 $j Burjassot
611 00 $a Premi Sant Jordi de novel<F2>la $k 2006
611 00 $a Premi Merc<C9> Rodoreda $i 8<C9> $k 2006 $j Barcelona
611 00 $a Premi Carles Riba de poesia $k 2006
611 00 $a Premi Ciutat de Barcelona de literatura catalana $k 2005
611 00 $a Premi Ciutat de Barcelona de traducci<C6> $k 2005
611 00 $a Premi Cavall Verd de poesia $k 2006
611 00 $a Premi Cavall Verd de traducci<C6> $k 2006
611 00 $a Premi Salamb<C6> de narrativa catalana $k 2n $k 2005
611 00 $a Premi Crexells de novel<F2>la $i 34<C9> $k 2005
611 00 $a Premi Maria <A1>ngels Anglada de narrativa $i 3r $k 2006 $j Figueres
611 00 $a Premi Cr<D5>tica Serra d'Or de novel<F2>la $k 2006
611 00 $a Premi Cr<D5>tica Serra d'Or de poesia $k 2006
611 00 $a Premi Cr<D5>tica Serra d'Or de narraci<C6> $k 2006
611 00 $a Premi Cr<D5>tica Serra d'Or d'assaig $k 2006
611 00 $a Premi Cr<D5>tica Serra d'Or de dietari $k 2006
611 00 $a Premi Cr<D5>tica Serra d'Or d'obra completa $k 2006
611 00 $a Premi de la Cr<D5>tica de narrativa $k 2005
611 00 $a Premi de la Cr<D5>tica de poesia $k 2005
611 00 $a Lletra d'Or $k 2006
611 00 $a Premi Brigada 21 $k 2006
611 00 $a Premi Traject<CA>ria $k 2006
611 00 $a Premi Jaume Fuster dels escriptors en llengua catalana $i 6<C9> $k 20$
611 00 $a Premi d'Honor de les Lletres Catalanes $k 2006
611 00 $a Premi Nacional de Literatura $k 2006
611 00 $a Premi Atl<C8>ntida $k 2006
650 00 $a Premis literaris
650 09 $a 2006
650 00 $a Novel<F2>la catalana
650 00 $a Poesia catalana
650 00 $a Literatura juvenil
650 00 $a Teatre catal<C8>
650 00 $a Literatura infantil
650 00 $a Prosa catalana
650 00 $a Dietari
650 00 $a Assaig
650 00 $a Conte catal<C8>
650 00 $a Novel<F2>la negra
655 00 $a Informaci<C6>
659 00 $a 2006
659 00 $a 2000X
773 00 $t Serra d'Or $d Barcelona, n<C7>m. 567 (2007, Mar<B5>), p. 36-39

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #5

Ferran, no sé quin límit d'etiquetes té Vtls. El que sí que et puc dir és que en poquíssimes ocasions ens hem excedit en la longitud d'un registre, i és el programa mateix que ens no permetia continuar entrant dades. De totes maneres, en la primera exportació d'aquest registre es veien algunes etiquetes 600 i ara veig que no. Registres com aquest Traces en té moltíssims. Tens cap idea de com ho podem solucionar?

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #6

Còpia de la petició al CBUC:

From: Ferran Jorba <Ferran.Jorba@uab.cat>
Subject: Límit de 99 (?) etiquetes repetides en l'extracció de VTLS
To: Ramon Ros <rros@cbuc.es>, Jordi Pallares <jpallares@cbuc.es>
Cc: Cristina.Riera@uab.cat, Magda.Alemany@uab.cat
Date: Tue, 28 Jul 2009 13:12:39 +0200

Hola Ramon i Jordi,

ja sé que el Jordi està de vacances, però he cregut que és millor fer-ho
per escrit a tots dos que per telèfon al Ramon.

La Cristina se n'ha adonat que alguns registres no s'han carregat
complerts a Invenio.  He ressegit el problema i he vist que no m'ha
arribat complet a mi, probablement perquè no s'ha extret complert de
VTLS, segurament per algun límit del programa d'extracció de VTLS.  El
registre amb el que s'ha trobat la Cristina està detallat aquí:

 http://wikis.bib.uab.cat/Traces/ticket/20#change_1
 (registre 0060-16760)

He pensat que si a més d'una extracció «normal» (iso2709) poguéssiu
planificar un bolcat marcprt dels registres (si no peta!), nosaltres
podríem detectar-los i recuperar les dades ja amb Invenio.

Com ho veueu?

Gràcies,

Ferran

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #7

Ferran,

He comptat les etiquetes del registre 0060-16760 perquè potser dóna pistes d'on pot estar o no el problema d'exportació: hi ha 87 etiquetes 600 que no s'han transferit; de les 82 611, les 19 primeres no s'han transferit, la resta, sí. Tampoc s'han transferit cap de les 5 610 que hi ha. En aquest cas, no superem el 99, si aquest és el límit.

També passa el mateix en el registre 52-84460 (Traces en proves)i 52-94960 (CCUC)

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #8

  • Tema ha canviat de Extracció del 16 de juliol del 2009 a Errors d'extracció de VTLS en registres llargs o en moltes etiquetes?

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #9

Continuem en contacte amb el CBUC per veure com podem detectar automàticament quins són els registres incomplerts i com extreure'ls d'alguna manera alternativa per a no perdre dades.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #10

Cristina,

el Jordi del CBUC ja m'ha extret tota la vostra base de dades en un format alternatiu, equivalent a la presentació del registre MARC en pantalla de VTLS. Amb aquesta segona extracció, he fet aquesta operació:

  1. Per a cadascun dels registres, comptar quantes etiquetes de cada hi ha.
  2. Per a cadascuna de les dues extraccions (iso2709 i visualtizació Marc), comparar les diferències d'etiquetes.

El resultat és aquest:

http://traces-test.uab.cat:2000/cbuc/iso2709-marcprt.marctags.diff.txt

Tot i que reconec que és una mica críptic (ja te l'explicaré a la propera visita), sí que serveix per saber si es poden detectar automàticament els registres extrets incomplerts de VTLS. I jo diria que sí, que serveix. Els dos bib-ids que menciones més amunt d'aquesta tasca hi són:

  • 0060-16760
  • 0052-84960

Si trobes algun altre registre incomplert, mira si us plau si el bib-id de VTLS aparaeix en el llistat que menciono més amunt. Si hi és, les dades les tenim i ja mirarem de completar els registres a posteriori.

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #11

D'acord Ferran, ja hi faré una ullada. Un dubte: per què l'extracció comença al registre 18-06260?

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #12

Cristina,

no, no comença pel 0018-06260; aquest és el primer registre que troba diferent (en el sentit que el número d'etiquetes per a cadascuna de les extraccions no és la mateixa) entre les dues extraccions. El que despista és que hi ha 11 registres seguits (11 signes «-», seguits de 11 signes «+») diferents.

Si no ho veus clar, ja t'explicaré com interpretar aquest resultat quan vinguis.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #13

Cristina,

ja he automatitzat la comparació de les dues extraccions, l'aïllament dels bib-ids dels registres incomplerts i la publicació en format Catmarc de visualització dels 86 registres (de moment) que caldrà completar a posteriori.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #14

La proposta acordada amb el CBUC és fer extraccions paral·leles en iso2709 (per a la conversió a Marc21) i en marctag (per a la comprovació i completar manualment els registres incomplerts) cada quinze dies.

Ara estem esperant que ens donin indicacions de com recollir aquestes extraccions.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #15

  • Tema ha canviat de Errors d'extracció de VTLS en registres llargs o en moltes etiquetes? a Bibliogràfics: errors d'extracció de VTLS en registres llargs o en moltes etiquetes?

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #16

D'acord amb el CBUC, ens faran una extracció quinzenal a http://docs.cbuc.cat/traces/ de:

  1. Els registres bibliogràfics més grans que el 65000 en iso2709 i en marcprt
  2. Tots els registres d'autoritats en iso2709 i els seus codis (authority-ids).

Amb això completarem la còpia que tenim ara, servirà de pla de contingència en cas d'avaria greu de la màquina actual del CBUC amb VTLS i ens permeterà migrar una mica quan ho tinguem a punt.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #17

Per part nostra, els registres que detectem incomplerts els depositem a http://traces-test.uab.cat:2000/cbuc/. Com que són relativament pocs (85 ara mateix), no sembla ser necessari un tractament automàtic. Molt probablement es corregiran manualment un cop migrats definitivament a Invenio.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #18

La primera actualització ja està carregada a http://traces-test.uab.cat:2000/collection/tracesbib i els registres incomplerts a http://traces-test.uab.cat:2000/cbuc/

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #19

Ferran, com és que a la base de dades en proves (http://traces-test.uab.cat:2000/?ln=es) hi ha 67.174 registres?

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #20

Cristina,

no ha de ser així? No estaràs confonent els bibliogràfics, que són 66.026? (http://traces-test.uab.cat:2000/collection/tracesbib)

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #21

  • Assignat a ha canviat de Ferran Jorba a Cristina Riera

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #22

Com que seran correccions posteriors, el canvio de milestone i propietari.

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #23

  • Estat ha canviat de Creada a Tancada
Accions

També disponible a: PDF Atom