Projecte

General

Perfil

Accions

Tasca #3010

tancat
FJ FJ

Tasca #3268: Objectius i tasques per fer a casa en teletreball (Ferran)

Detectar i carregar les tesis que estan al TDX i no al DDD

Tasca #3010: Detectar i carregar les tesis que estan al TDX i no al DDD

Afegit per Ferran Jorba fa més de 11 anys. Actualitzat fa aproximadament 11 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
-
Temàtica prevista:
Inici:
17-07-2014
Data de venciment:
Paraula clau:

Descripció

Al TDX hi ha més tesis de la UAB que al DDD. Cal trobar-les i carregar-les.


Tasques relacionades 6 (0 obertes6 tancades)

relacionat amb DDD - Millora #470: Automatitzar la incorporació de les tesis del TDX al DDDTancadaFerran Jorba19-12-2014Accions
relacionat amb DDD - Tasca #1162: Adaptar la recol·lecta de les tesis del sistema antic a DSpace - PRJ152TancadaFerran Jorba28-04-2016Accions
relacionat amb DDD - Tasca #2736: Substituir les 856 de les tesis de l'antic sistema del CBUC amb les noves del DSpaceTancadaFerran Jorba10-03-201401-11-2014Accions
relacionat amb DDD - Tasca #3247: Corregir els resums de les tesis que no quadren amb les del TDXTancadaFerran Jorba13-01-2015Accions
relacionat amb DDD - Tasca #3249: Detectar, corregir o eliminar els PDFs duplicats de les tesis. Repassar els dretsTancadaCristina Azorin13-01-2015Accions
relacionat amb DDD - Tasca #6444: Reorganitzar la càrrega de tesis de TDXTancadaFerran Jorba03-05-202130-07-2021Accions

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #1

Totes les tesis TDX al DDD ja tenen la 035 amb l'identificador OAI del TDX (ex: http://ddd.uab.cat/record/118946/export/hm). Això facilitarà la comparació.

Paral·lelament, ja he canviat 301 de les 1038 tesis que a la url d'adreça alternativa hi tenen la web tdx.cat en comptes de handle.net. Per demà ja estaran totes canviades.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #2

Ja he escrit el programa que detecta els que estan al TDX i no al DDD, a partir de l'identificador OAI de la 035, i ho fa en menys d'un minut, de manera que el podem executar sempre que ens calgui. Ara mateix en troba 670.

Miraré de combinar aquesta tasca amb la #1162 per carregar aquests registres com si vinguessin d'oai.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #3

  • Estat ha canviat de Creada a En curs

Ja hi ha les 10 primeres carregades!

http://ddd.uab.cat/collection/tesis

Ara mateix el sistema detecta que en manquen 777. Deixaré que en carregui 100 cada dia, i per tant en poc més d'una setmana ja hi seran totes.

Caldrà que repassem quines metadades cal corregir, i en concret quines cal recollir del catàleg perque són millors. Però això forma part de la tasca #470.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #4

Ja he vist el primer conflicte, i només amb les 10 primeres tesis carregades. N'hi ha una d'aparentment duplicada:

El sistema no l'ha detectada perquè l'identicador remot (oai a la 035) és diferent. De fet, és que està duplicada al TDX:

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions #5

Esperem que aquest sigui un error puntual. Jo he vist alguna amb ISBN com a 'pendent', potser després ho haurem de recuperar i anar-les completant.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #6

Aquesta nit se n'han afegit 100 més, moltes amb embargament, i això no queda resolt. Cal afegir la nota i la icona del calendari, com les altres d'embargades.

http://ddd.uab.cat/collection/tesis

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #7

Ja he corregit els antics, els de la càrrega d'ahir, i em sembla que també he corregit el comportament de les noves càrregues. Però amb la prova de les noves 5 tesis que acabo de carregar, entre elles no n'hi havia cap d'embargada, però sí que ja es veu que hi apareixen els $s i el $p a la 856, que fins ara no es generaven en el moment de la càrrega inicial.

http://ddd.uab.cat/collection/tesis

D'altra banda, cada cop més em sembla que aquest sistema, és a dir, comparar quines tesis hi ha a can TDX que no tenim al DDD i carregar-los automàticament, serà la manera de solucionar les tasques #470 i #1162 (a la llista de les tasques relacionades).

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #8

Durant un parell de dies he deixat automatitzades càrregues de 100 tesis a les 10 de la nit, amb els procediments automàtics de correccions diaris. He vist que no va gens bé, perquè triga tant en indexar tesis noves (perquè són documents amb moltes paraules) que fa anar malament tota la resta de scripts.

Per tant, les tres darreres tongades les tinc programades pel matí, a les 6. Avui, 100 (ja carregades), demà 100 més, i divendres les 47 darreres (de moment).

Amb això tancarem aquesta tasca i continuarem amb la #470 i #1162, on explicaré que probablement ho programaré per la matinada dels dilluns.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #9

Ja estan totes carregades! Caldrà repassar alguns casos, que anoto aquí com a exemples:

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions #10

  • Estat ha canviat de En curs a Tancada

FJ Actualitzat per Ferran Jorba fa aproximadament 11 anys Accions #11

  • Tasca pare s'ha establert a #3268

CA Actualitzat per Cristina Azorin fa quasi 5 anys Accions #12

  • S'ha afegit relacionat amb Tasca #6444: Reorganitzar la càrrega de tesis de TDX
Accions

També disponible a: PDF Atom