Projecte

General

Perfil

Accions

Tasca #252

tancat
CA OC

Incorporar les tesis de la UAB al DDD

Tasca #252: Incorporar les tesis de la UAB al DDD

Afegit per Cristina Azorin fa més de 17 anys. Actualitzat fa més de 16 anys.

Estat:
Tancada
Prioritat:
Alta
Assignat a:
Categoria:
-
Inici:
Data de venciment:
Paraula clau:

Descripció

El Director demana tenir les tesis de la UAB tipus UPF:

http://www.upf.edu/web/recerca/recerca.htm?opcio=9

Hem de mirar de treballar amb l'OAI del TDX.


Tasques relacionades 1 (0 obertes1 tancada)

relacionat amb DDD - Tasca #6444: Reorganitzar la càrrega de tesis de TDXTancadaFerran Jorba03-05-202130-07-2021Accions

FJ Actualitzat per Ferran Jorba fa més de 17 anys Accions #1

He estat fent proves amb l'OAI del TDX. De moment, m'he baixat, en format Dublin Core i OAI_MARC (un format ja considerat obsolet) totes les tesis des del 2000 fins el 2008:

Preliminarment, em surten aquestes xifres:

  • 2000 0
  • 2001 144
  • 2002 257
  • 2003 218
  • 2004 303
  • 2005 242
  • 2006 292
  • 2007 268
  • 2008 343

De tota manera, les tesis també estan [[http://uab.cbuc.cat/search~S1*cat?/X+%22tesi+doctoral%22+autonoma+barcelona&SORT=D/X+%22tesi+doctoral%22+autonoma+barcelona&SORT=D&extended=0&SUBKEY=%20%22tesi%20doctoral%22%20autonoma%20barcelona/1%2C13647%2C13647%2CB/browse al catàleg]], i en MARC21 normalitzat.

No seria millor agafar-les del catàleg?

FJ Actualitzat per Ferran Jorba fa aproximadament 17 anys Accions #2

  • Assignat a ha canviat de Ferran Jorba a Cristina Azorin

FJ Actualitzat per Ferran Jorba fa aproximadament 17 anys Accions #3

Cristina, cal que miris com fer una extracció de les tesis digitals des del catàleg (crear listas?), al TDX hi ha abstracts? Els pot entrar després l'Oriol o es poden entrar automàticament?, val la pena d'un lloc o un altre. Decidir pel dia 30 de març, dilluns

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #4

De moment hem fet una exportació iso2709 des d'Intercambio de datos del catàleg Millennium de la UAB de les 2153 tesis, i les hem carregades a http://ddd-test.uab.cat:2000/collection/tesis (en aquesta prova n'hi ha de duplicats). Falta afegir-hi els abstracts a partir de les dades del TDX, i una còpia dels documents en local.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #5

Ja estan afegits la majoria dels resums, extrets del TDX. Aquests resums tenen els diacrítics codificats de manera molt irregular. Els problemes són:

  • A més a més, en el mateix registre sovint hi ha barreja de diferents codificacions, com numèriques (ex. incid#& ncia), 8-bits (ex. incidència), o mnemotècnis (ex è), etc.

Uniformitzar-lo i passar-lo tot a utf-8 ha costat una mica, i segurament deu quedar algun per arreglar.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #6

Ja estic baixant-me els PDFs, automàticament amb wget. De moment les xifres són:

  • Tesis: 424 (de 2258), un 18 %
  • Fitxers (pdf): 1293
  • Tamany: 4.6 GB (passarà dels 20 GB?)

Continuarà tota la tarda i nit.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #7

  • Prioritat ha canviat de medium a high

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #8

  • Assignat a ha canviat de Cristina Azorin a Ferran Jorba

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #9

Abans de fer la repassada final (en un primer cop d'ull hi he trobat una vintena d'errors de diferents tipus), ja tenim això:

  • Tesis: 2141
  • Fitxers (pdf): 6152
  • Tamany: 19 GB
  • Temps de baixar-se els PDFs des del TDX: unes 9 h (aprox.)

Ara hi he de fer:

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #10

Cristina: investiga aquests errors:

tdx-0212109-093630
tdx-0626101-10160
tdx-0314108-162421
tdx-0331109-13532
tdx-0131103-200134
tdx-1102107-093654
tdx-1212107-110815
tdx-0716101-093206
tdx-0927102-141647
tdx-0702102135618
tdx-0401109-150519
tdx-0531101120649
tdx-0701104-163059

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #11

Pel que fa a la distribució dels fitxers, n'hem parlat amb la CristinaAzorin i creiem que:

  • conservarem un directori per tesi.
  • conservarem l'identificador tdx.
  • hi afegirem l'any entre «tesi» i l'identificador tdx, perquè si no la llista és massa gran.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #12

Ferran: mirar si podem agafar els resums de la pàgina html i podem corregir els accents (ex: lobjectiu -> l'objectiu).

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #13

Hem obert la tasca # sobre l'automatització de l'entrada de noves tesis.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #14

  • Tema ha canviat de Consultar les tesis de la UAB al DDD a Incorporar les tesis de la UAB al DDD

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #15

Pel que fa als diacrítics, exactament la meitat dels sumaris tenen els caràcters hexadecimals x091 (apòstrofs de Windows) o x092 (accents com a apòstrofs):

  • 2131 de 4272 sumaris.
  • 15.663 línies.
  • 33.208 apòstrofs dolents (225 caràcters x091, 32.983 caràcters x092).

Evidentment és una xifra exageradament alta com per intentar corregir-ho manualment.

Aquests apòstrofs mal posats fan que hi hagi paraules que no siguin cercables (ex, «lobjectiu» en comtes de «l'objectiu» fa que la paraula «objectiu» no sigui cercable.

En l'exportació OAI hem vist que directament desapareixen, de manera que queda «lobjectiu» sense possibilitat de correcció. Miraré fins a quin punt podem recuperar aquests sumaris a partir de l'HTML que, com que té aquests diacrítics, encara que mal posats, es poden corregir amb un script com ara aquest:

gawk '
BEGIN    {
    q = sprintf("%c",39)
    }
    {
    gsub(/x091/,q)
    gsub(/x092/,q)
    gsub(/x096/,"-")
    print
    }
' *.html | tidy -latin1 -indent -wrap 0 | iconv -f latin1 -t utf8 

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #16

Em sembla que me n'he ensortit força bé. Ara tots els resums estan actualitzats a partir de la pàgina html (i no de la sortida OAI Dublin Core) a partir d'una variació del script que he descrit més amunt.

http://ddd-test.uab.cat:2000/collection/tesis

Ara em falta crear les 856$u corresponents i apuntar a la còpia local dels PDFs (que ja els he baixat).

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #17

Ja estan creats els 856$u que apunten a la còpia local dels PDFs.

El que passa és que hi ha les urls externes que apunten als diferents noms amb el que es coneix el TDX (http://www.tdx.cat/, http://www.tesisenxarxa.net/, http://www.tdx.cbuc.es/, etc.). D'una banda, no està normalitzat; de l'altra, surt primer l'adreça remota que la local. A veure què podem fer...

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #18

Els fitxers (pdfs) també estan ja distribuits per anys:

http://ddd.uab.cat/pub/tesis/

Amb aquesta distribució veig que les estadístiques de tesis per anys de dalt de tot de la tasca era falsa, perquè es referien als anys d' ''introducció'' al TDX, no de publicació (defensa) de les tesis.

D'altra banda, queden unes tesis que no s'han pogut distribuir perquè les adreces donades per nostre catàleg (en Millennium) al TDX no existeixen, i cal corregir-les en primer lloc al nostre catàleg. Es corresponen majoritàriament a les llistades a la nota «Cristina: investiga aquests errors».

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #19

Ja hem creat la col·lecció al DDD públic:

http://ddd.uab.cat/collection/tesisuab

Com que els documents són molt pesats (resums molt llargs), deixem que es carreguin i indexin aquesta nit.

Hem mantingut també la URL original del TDX com a adreça alternativa.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #20

El sistema porta indexant des de les 23:00 de la nit de dijous, a les 10:00 de divendres i encara no ha acabat, i per això encara no apareixen. Segur que amb les noves màquines aquestes càrregues seran molt més ràpides!

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #21

Ja hi són totes:

http://ddd.uab.cat/collection/tesisuab

N'hi ha 10 menys que al DDD de proves perquè algunes estaven repetides a l'altra banda, quan encara no havia arreglat la possibilitat de tenir més d'una 970, i aquí ha donat error per registre duplicat.

Alguns d'aquests duplicats ja estan arreglats (si la primera carregada no tenia resums ni links als PDF locals).

Ara cal fer alguna altra repassada.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #22

Acabo de deixar per aquesta nit una correcció de tots els resums, per arreglar dos problemes:

  • L'eliminació dels <p> ha fet que el final d'una paraula d'un paràgraf i la primera del següent paràgraf s'ajuntessin en una de sola.
  • Substitució de les ''smart quotes'' anglosaxones introduïdes aquí per Microsoft (” i ”) per cometes tipogràfiques estandaritzades (http://ca.wikipedia.org/wiki/Cometes_(tipografia))

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #23

  • Estat ha canviat de Creada a Tancada

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #24

Queda encara afegir-hi el número de catàleg de Millennium que, per error, no sempre hi és.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #25

  • Estat ha canviat de Tancada a Creada

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #26

Xifres per repassar:

  • Tesis exportades de Millennium (21-abr-2009): 2154
  • Cerca buida al TDX de tesis UAB (11-mai-2009): 2169
  • Tesis al DDD-test (11-mai-2009): 2151
  • Tesis al DDD (11-mai-2009): 2143
  • Casos a repassar (v. més amunt, «Cristina: investiga aquests errors:»): 13
  • Tesis no distribuides per any (i, de fet, sense PDF; http://ddd.uab.cat/pub/tesis/ 11-mai-2009): 10
  • Cerca «catuab» al DDD (11-mai-2009): 12

Molt probablement arreglant-ne unes s'arreglaran les altres, és a dir, que les problemàtiques estan en més d'un d'aquests casos.

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #27

Aquests registres també s'han de repassar, perquè no tenen l'enllaç al TDX ni els PDFs locals:

CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #28

Ferran, l'Oriol ha detectat que el fet que Invenio ordeni les etiquetes de la 245 alfabèticament dóna molts problemes. Com que s'arrossega la puntuació dels altres camps moltes vegades no hi ha els : amb la informació complementària ($b)

Et posem exemples:

subtítol: http://ddd.uab.cat/record/38603

menció d'autoritat: http://ddd.uab.cat/record/38602

Què cal que fem? No crec que sigui el més adequat arreglar-los un a un i a ma. Et sembla que hi ha una solució automàtica?

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #29

Hem arreglat la presentació HTML perquè agafi la del $h i la posi després del $a. Igualment, ara també inserta els espais davant dels signes de puntuació que toca.

Aquestes accions afecten (i arreglen) tots els registres, no només les tesis.

CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #30

  • Assignat a ha canviat de Ferran Jorba a Oriol Castells

OC Actualitzat per Oriol Castells fa quasi 17 anys Accions #31

La tesi Metabolisme lipídic en plantes.. no ha pujat bé els arxius.

El mateix cas en la tesi:

Theory and practice of equilibrium real exchange rateslooking into the euro-area empirical evidence

CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #32

  • Assignat a ha canviat de Oriol Castells a Ferran Jorba

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #33

  • Assignat a ha canviat de Ferran Jorba a Oriol Castells

FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #34

Oriol,

la tesi Metabolisme lipídic en plantes està erròniament al catàleg de la UAB (http://cataleg.uab.cat/record=b1741874) i per això està al DDD. Heu de decidir com gestionar aquest error en el catàleg, al CCUC i al DDD.

El cas de heory and practice of equilibrium real exchange, passava que el fitxer tenia PDF en majúscula i ja ho he arreglat passant-lo a minúscula.

CA Actualitzat per Cristina Azorin fa més de 16 anys Accions #35

  • Estat ha canviat de Creada a Tancada

CA Actualitzat per Cristina Azorin fa més de 16 anys Accions #36

Ja s'ha esborrat la tesi de la UAB del catàleg i del DDD.

Tasca tancada!!!

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #37

  • S'ha afegit relacionat amb Tasca #6444: Reorganitzar la càrrega de tesis de TDX
Accions

També disponible a: PDF Atom