Tasca #252
tancatIncorporar les tesis de la UAB al DDD
Afegit per Cristina Azorin fa més de 17 anys. Actualitzat fa més de 16 anys.
Descripció
El Director demana tenir les tesis de la UAB tipus UPF:
http://www.upf.edu/web/recerca/recerca.htm?opcio=9
Hem de mirar de treballar amb l'OAI del TDX.
FJ Actualitzat per Ferran Jorba fa més de 17 anys Accions #1
He estat fent proves amb l'OAI del TDX. De moment, m'he baixat, en format Dublin Core i OAI_MARC (un format ja considerat obsolet) totes les tesis des del 2000 fins el 2008:
Preliminarment, em surten aquestes xifres:
- 2000 0
- 2001 144
- 2002 257
- 2003 218
- 2004 303
- 2005 242
- 2006 292
- 2007 268
- 2008 343
De tota manera, les tesis també estan [[http://uab.cbuc.cat/search~S1*cat?/X+%22tesi+doctoral%22+autonoma+barcelona&SORT=D/X+%22tesi+doctoral%22+autonoma+barcelona&SORT=D&extended=0&SUBKEY=%20%22tesi%20doctoral%22%20autonoma%20barcelona/1%2C13647%2C13647%2CB/browse al catàleg]], i en MARC21 normalitzat.
No seria millor agafar-les del catàleg?
FJ Actualitzat per Ferran Jorba fa aproximadament 17 anys Accions #2
- Assignat a ha canviat de Ferran Jorba a Cristina Azorin
FJ Actualitzat per Ferran Jorba fa aproximadament 17 anys Accions #3
Cristina, cal que miris com fer una extracció de les tesis digitals des del catàleg (crear listas?), al TDX hi ha abstracts? Els pot entrar després l'Oriol o es poden entrar automàticament?, val la pena d'un lloc o un altre. Decidir pel dia 30 de març, dilluns
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #4
De moment hem fet una exportació iso2709 des d'Intercambio de datos del catàleg Millennium de la UAB de les 2153 tesis, i les hem carregades a http://ddd-test.uab.cat:2000/collection/tesis (en aquesta prova n'hi ha de duplicats). Falta afegir-hi els abstracts a partir de les dades del TDX, i una còpia dels documents en local.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #5
Ja estan afegits la majoria dels resums, extrets del TDX. Aquests resums tenen els diacrítics codificats de manera molt irregular. Els problemes són:
- Bona part dels apòstrofs estan mal picats, i són accent-tancat+espai, en comptes d'apòstrof (ex.: http://www.tesisenxarxa.net/TDX-0731108-113926/ , primera paraula del reum).
- Això, que en la presentació Web només es veu si t'hi fixes, quan l'exporten via OAI s'elimina aquest accent-en-comptes-d'apostrof [http://www.tdx.cesca.es/TDX_UAB/NDLTD-OAI/oai.pl?verb=ListRecords&metadataPrefix=oai_dc&from=2001-07-20&until=2001-07-20&set=All Vegeu cap al final], com també es pot comprovar [http://quod.lib.umich.edu/cgi/b/bib/bib-idx?type=boolean&size=10&rgn1=title&rgn2=entire+record&rgn3=entire+record&c=oaister&sid=5f4822184af64732fcd2ce3a7a5d1d99&searchfield=Title&q1=Temps%2C+treball+i+benestar+una+aproximaci%C3%B3+des+de+la+vida+quotidiana&op2=And&searchfield=Entire+Record&q2=&op3=And&searchfield=Entire+Record&q3=&op6=And&rgn6=norm&restype=all+types&sort=weighted+hit+frequency&submit2=search a Oaister]
- A més a més, en el mateix registre sovint hi ha barreja de diferents codificacions, com numèriques (ex. incid#& ncia), 8-bits (ex. incidència), o mnemotècnis (ex è), etc.
Uniformitzar-lo i passar-lo tot a utf-8 ha costat una mica, i segurament deu quedar algun per arreglar.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #6
Ja estic baixant-me els PDFs, automàticament amb wget. De moment les xifres són:
- Tesis: 424 (de 2258), un 18 %
- Fitxers (pdf): 1293
- Tamany: 4.6 GB (passarà dels 20 GB?)
Continuarà tota la tarda i nit.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #7
- Prioritat ha canviat de medium a high
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #8
- Assignat a ha canviat de Cristina Azorin a Ferran Jorba
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #9
Abans de fer la repassada final (en un primer cop d'ull hi he trobat una vintena d'errors de diferents tipus), ja tenim això:
- Tesis: 2141
- Fitxers (pdf): 6152
- Tamany: 19 GB
- Temps de baixar-se els PDFs des del TDX: unes 9 h (aprox.)
Ara hi he de fer:
- Esborrar tesis duplicades a http://ddd-test.uab.cat:2000/collection/tesis causades per diferents proves de càrrega.
- Afegir-hi els 856 amb links a la còpia local dels PDFs.
- Investigar i arreglar errors.
- etc.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #10
Cristina: investiga aquests errors:
tdx-0212109-093630 tdx-0626101-10160 tdx-0314108-162421 tdx-0331109-13532 tdx-0131103-200134 tdx-1102107-093654 tdx-1212107-110815 tdx-0716101-093206 tdx-0927102-141647 tdx-0702102135618 tdx-0401109-150519 tdx-0531101120649 tdx-0701104-163059
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #11
Pel que fa a la distribució dels fitxers, n'hem parlat amb la CristinaAzorin i creiem que:
- conservarem un directori per tesi.
- conservarem l'identificador tdx.
- hi afegirem l'any entre «tesi» i l'identificador tdx, perquè si no la llista és massa gran.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #12
Ferran: mirar si podem agafar els resums de la pàgina html i podem corregir els accents (ex: lobjectiu -> l'objectiu).
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #13
Hem obert la tasca # sobre l'automatització de l'entrada de noves tesis.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #14
- Tema ha canviat de Consultar les tesis de la UAB al DDD a Incorporar les tesis de la UAB al DDD
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #15
Pel que fa als diacrítics, exactament la meitat dels sumaris tenen els caràcters hexadecimals x091 (apòstrofs de Windows) o x092 (accents com a apòstrofs):
- 2131 de 4272 sumaris.
- 15.663 línies.
- 33.208 apòstrofs dolents (225 caràcters x091, 32.983 caràcters x092).
Evidentment és una xifra exageradament alta com per intentar corregir-ho manualment.
Aquests apòstrofs mal posats fan que hi hagi paraules que no siguin cercables (ex, «lobjectiu» en comtes de «l'objectiu» fa que la paraula «objectiu» no sigui cercable.
En l'exportació OAI hem vist que directament desapareixen, de manera que queda «lobjectiu» sense possibilitat de correcció. Miraré fins a quin punt podem recuperar aquests sumaris a partir de l'HTML que, com que té aquests diacrítics, encara que mal posats, es poden corregir amb un script com ara aquest:
gawk '
BEGIN {
q = sprintf("%c",39)
}
{
gsub(/x091/,q)
gsub(/x092/,q)
gsub(/x096/,"-")
print
}
' *.html | tidy -latin1 -indent -wrap 0 | iconv -f latin1 -t utf8
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #16
Em sembla que me n'he ensortit força bé. Ara tots els resums estan actualitzats a partir de la pàgina html (i no de la sortida OAI Dublin Core) a partir d'una variació del script que he descrit més amunt.
http://ddd-test.uab.cat:2000/collection/tesis
Ara em falta crear les 856$u corresponents i apuntar a la còpia local dels PDFs (que ja els he baixat).
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #17
Ja estan creats els 856$u que apunten a la còpia local dels PDFs.
El que passa és que hi ha les urls externes que apunten als diferents noms amb el que es coneix el TDX (http://www.tdx.cat/, http://www.tesisenxarxa.net/, http://www.tdx.cbuc.es/, etc.). D'una banda, no està normalitzat; de l'altra, surt primer l'adreça remota que la local. A veure què podem fer...
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #18
Els fitxers (pdfs) també estan ja distribuits per anys:
Amb aquesta distribució veig que les estadístiques de tesis per anys de dalt de tot de la tasca era falsa, perquè es referien als anys d' ''introducció'' al TDX, no de publicació (defensa) de les tesis.
D'altra banda, queden unes tesis que no s'han pogut distribuir perquè les adreces donades per nostre catàleg (en Millennium) al TDX no existeixen, i cal corregir-les en primer lloc al nostre catàleg. Es corresponen majoritàriament a les llistades a la nota «Cristina: investiga aquests errors».
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #19
Ja hem creat la col·lecció al DDD públic:
http://ddd.uab.cat/collection/tesisuab
Com que els documents són molt pesats (resums molt llargs), deixem que es carreguin i indexin aquesta nit.
Hem mantingut també la URL original del TDX com a adreça alternativa.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #20
El sistema porta indexant des de les 23:00 de la nit de dijous, a les 10:00 de divendres i encara no ha acabat, i per això encara no apareixen. Segur que amb les noves màquines aquestes càrregues seran molt més ràpides!
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #21
Ja hi són totes:
http://ddd.uab.cat/collection/tesisuab
N'hi ha 10 menys que al DDD de proves perquè algunes estaven repetides a l'altra banda, quan encara no havia arreglat la possibilitat de tenir més d'una 970, i aquí ha donat error per registre duplicat.
Alguns d'aquests duplicats ja estan arreglats (si la primera carregada no tenia resums ni links als PDF locals).
Ara cal fer alguna altra repassada.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #22
Acabo de deixar per aquesta nit una correcció de tots els resums, per arreglar dos problemes:
- L'eliminació dels <p> ha fet que el final d'una paraula d'un paràgraf i la primera del següent paràgraf s'ajuntessin en una de sola.
- Substitució de les ''smart quotes'' anglosaxones introduïdes aquí per Microsoft (” i ”) per cometes tipogràfiques estandaritzades (http://ca.wikipedia.org/wiki/Cometes_(tipografia))
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #23
- Estat ha canviat de Creada a Tancada
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #24
Queda encara afegir-hi el número de catàleg de Millennium que, per error, no sempre hi és.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #25
- Estat ha canviat de Tancada a Creada
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #26
Xifres per repassar:
- Tesis exportades de Millennium (21-abr-2009): 2154
- Cerca buida al TDX de tesis UAB (11-mai-2009): 2169
- Tesis al DDD-test (11-mai-2009): 2151
- Tesis al DDD (11-mai-2009): 2143
- Casos a repassar (v. més amunt, «Cristina: investiga aquests errors:»): 13
- Tesis no distribuides per any (i, de fet, sense PDF; http://ddd.uab.cat/pub/tesis/ 11-mai-2009): 10
- Cerca «catuab» al DDD (11-mai-2009): 12
Molt probablement arreglant-ne unes s'arreglaran les altres, és a dir, que les problemàtiques estan en més d'un d'aquests casos.
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #27
Aquests registres també s'han de repassar, perquè no tenen l'enllaç al TDX ni els PDFs locals:
- http://ddd.uab.cat/record/38636: A la recerca d'un sensor d'[omicron]-fosfat per al monitoratge directe de nutrients
- http://ddd.uab.cat/record/38171: The Creation and development of entrepreneurial universities in Spain
- http://ddd.uab.cat/record/37548: Fiscalismo y finanzas en la Cataluña Moderna
- http://ddd.uab.cat/record/37542: Flujos espaciales e itinerarios biográficos
- http://ddd.uab.cat/record/37536: Formació de biofilms i risc sanitari en sistemes de
- http://ddd.uab.cat/record/37372: Ingenieria de anticuerpos aplicada al desarrollo
- http://ddd.uab.cat/record/37288: Lípidos de la dieta y cáncer de mama experimental
- http://ddd.uab.cat/record/37067: Organitzacions bi i tridimensionals de molècules electroactives
- http://ddd.uab.cat/record/37032: Paper epidemiològic de les paparres i els seus hostes
- http://ddd.uab.cat/record/36785: Salomón Usque, traductor del Canzoniere de Petrarca
- http://ddd.uab.cat/record/36621: Trade, environment and development
CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #28
Ferran, l'Oriol ha detectat que el fet que Invenio ordeni les etiquetes de la 245 alfabèticament dóna molts problemes. Com que s'arrossega la puntuació dels altres camps moltes vegades no hi ha els : amb la informació complementària ($b)
Et posem exemples:
subtítol: http://ddd.uab.cat/record/38603
menció d'autoritat: http://ddd.uab.cat/record/38602
Què cal que fem? No crec que sigui el més adequat arreglar-los un a un i a ma. Et sembla que hi ha una solució automàtica?
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #29
Hem arreglat la presentació HTML perquè agafi la del $h i la posi després del $a. Igualment, ara també inserta els espais davant dels signes de puntuació que toca.
Aquestes accions afecten (i arreglen) tots els registres, no només les tesis.
CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #30
- Assignat a ha canviat de Ferran Jorba a Oriol Castells
OC Actualitzat per Oriol Castells fa quasi 17 anys Accions #31
La tesi Metabolisme lipídic en plantes.. no ha pujat bé els arxius.
El mateix cas en la tesi:
Theory and practice of equilibrium real exchange rateslooking into the euro-area empirical evidence
CA Actualitzat per Cristina Azorin fa quasi 17 anys Accions #32
- Assignat a ha canviat de Oriol Castells a Ferran Jorba
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #33
- Assignat a ha canviat de Ferran Jorba a Oriol Castells
FJ Actualitzat per Ferran Jorba fa quasi 17 anys Accions #34
Oriol,
la tesi Metabolisme lipídic en plantes està erròniament al catàleg de la UAB (http://cataleg.uab.cat/record=b1741874) i per això està al DDD. Heu de decidir com gestionar aquest error en el catàleg, al CCUC i al DDD.
El cas de heory and practice of equilibrium real exchange, passava que el fitxer tenia PDF en majúscula i ja ho he arreglat passant-lo a minúscula.
CA Actualitzat per Cristina Azorin fa més de 16 anys Accions #35
- Estat ha canviat de Creada a Tancada
CA Actualitzat per Cristina Azorin fa més de 16 anys Accions #36
Ja s'ha esborrat la tesi de la UAB del catàleg i del DDD.
Tasca tancada!!!
CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #37
- S'ha afegit relacionat amb Tasca #6444: Reorganitzar la càrrega de tesis de TDX