Projecte

General

Perfil

Accions

Millora #8281

tancat
TS TS

2024/009 Estudi per a la preservació de les tesis de la UAB

Millora #8281: 2024/009 Estudi per a la preservació de les tesis de la UAB

Afegit per Teresa Santos fa aproximadament 2 anys. Actualitzat fa més d'un any.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Teresa Santos
Temàtica prevista:
Inici:
23-01-2024
Data de venciment:
15-09-2024
Paraula clau:
Coordinació GC
1r Obj. Estr. PA :
2n Obj. Estr. PA:
ODS:
ODS - Altres
Origen:
Noves propostes
Tipus d'acció de millora:
Preventiva
Selecciona:
Risc
Procés:
9. Col·lecció

Descripció

La BCHG és la biblioteca responsable de totes les tesis doctorals llegides a la UAB en format paper. Al llarg del temps, algunes d'aquestes tesis ja estan en format microfitxa i altres digitalitzades i allotjades al DDD i a TDX. Ens preocupa aquelles que només es troben en format paper, perquè sabem que aquest suport es degradarà amb el pas del temps. De cara a valorar una possible digitalització massiva, amb ànim sobretot de preservació, posem en marxa un estudi per saber de quin volum podem estar parlant


Fitxers

Tesis en microfitxa.xlsx (432 KB) Tesis en microfitxa.xlsx Línia de treball desestimada Teresa Santos, 08-02-2024 17:55
Tesis DDD_autor.xlsx (926 KB) Tesis DDD_autor.xlsx Línia de treball desestimada Teresa Santos, 08-02-2024 18:07
Tesis paper_Dip21.xlsx (1.83 MB) Tesis paper_Dip21.xlsx Línia de treball desestimada Teresa Santos, 09-02-2024 10:14
autores_en_tesis_paper_que_no_estan_tesis_ddd_autor.csv (186 KB) autores_en_tesis_paper_que_no_estan_tesis_ddd_autor.csv Línia de treball desestimada Javier Planella, 12-02-2024 11:48
Copia de BCHC_títols tesis acd12_no digitalitzades.xlsx (1.11 MB) Copia de BCHC_títols tesis acd12_no digitalitzades.xlsx Teresa Santos, 15-09-2024 18:10
Copia de BCHC_títols tesis microfitxa_títols.xlsx (859 KB) Copia de BCHC_títols tesis microfitxa_títols.xlsx Teresa Santos, 15-09-2024 18:11
RBU220113_UAB_Tesis doctorals.pdf (312 KB) RBU220113_UAB_Tesis doctorals.pdf Pressupost orientatiu digitalització_2022 Teresa Santos, 15-09-2024 18:12

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #1

El que volem saber és:
  1. Quantes tesis tenim únicament en paper
  2. Quantes tenim en paper, microfitxa i digital alhora
  3. Quantes tenim en paper i digital

El camp més fiable és el de l'autor, atès que aquest no pot estar repetit.
Javier a veure si podem fer servir el programa de compraració de la bibliografia per aquest fí

SS Actualitzat per Sílvia Sánchez fa aproximadament 2 anys Accions #2

  • Tema ha canviat de Estudi per a la preservació de les tesis de la UAB a 2024/009 Estudi per a la preservació de les tesis de la UAB

JP Actualitzat per Javier Planella fa aproximadament 2 anys Accions #3

  • Estat ha canviat de Creada a En curs

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #4

  • Fitxer s'ha suprimit (Tesis paper.xlsx)

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #5

  • S'ha afegit Fitxer Tesis paper_autor.xlsx

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #6

He tornat a extreure la llista de les tesis que hi ha en format paper. El camp millor per creuar dades és la columna "autor". S'haurà de treure el punt final que presenten alguns noms

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #7

  • Fitxer s'ha suprimit (Tesis en microfitxa.xlsx)

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #8

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #9

  • Fitxer s'ha suprimit (Tesis DDD.xlsx)

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #10

Els tres fitxers tenen ara una columna anomenada autor o author que és la que ens ha de servir per creuar dades. En principi no tenen ni dates ni parèntesis acompanyant el nom.

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #11

  • Fitxer s'ha suprimit (Tesis paper_autor.xlsx)

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #12

JP Actualitzat per Javier Planella fa aproximadament 2 anys Accions #13

En base al fichero Tesis paper_Dip21.xlsx: Hay que saber que está ahí i no en los otros dos

JP Actualitzat per Javier Planella fa aproximadament 2 anys Accions #14

Tratamiento previo de archivos:
- se elimina . en el ultimo caracter de cada lina
- se elimina , en el ultimo caracter de cada lina

expresion regular usada:
(\.)$

JP Actualitzat per Javier Planella fa aproximadament 2 anys Accions #15

eliminar , (coma+espacio) en la ultima posicion:

expresion regular:
, $

JP Actualitzat per Javier Planella fa aproximadament 2 anys Accions #16

  • S'ha afegit Fitxer autores_en_tesis_ddd_autor_que_no_estan_tesis_paper.csv

JP Actualitzat per Javier Planella fa aproximadament 2 anys Accions #17

  • Fitxer s'ha suprimit (autores_en_tesis_ddd_autor_que_no_estan_tesis_paper.csv)

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #19

  • Assignat a ha canviat de Javier Planella a Teresa Santos

TS Actualitzat per Teresa Santos fa aproximadament 2 anys Accions #20

La complexitat de comparar les tesis que podem existir simultàniament en més d’un format, és molt alta. Els registres de catàleg només existeixen per la descripció del format paper i microfitxa, mentre que les dades de tesis electròniques s’extreuen del DDD. L’extracció de camps específics es veu afectat per la pròpia descripció dels diferents formats i a més per la visualització d’un altre programa en el cas de les electròniques.
Relacionem aquí tota la tasca que s’ha dut a terme i que ens portarà a quantificar les tesis que només estan en paper, per fer una estimació pressupostaria per a la seva digitalització i simultàniament la detecció d’alguna errada. La relació de passos donarà la idea de la dificultat amb la que ens hem trobat i documenta el procés, de cara a poder aplicar aquests criteris en altres processos.

Aquesta tasca ha estat realitzada per Alba Marcos.

Primer es descarrega el llistat de Tesis d'ALMA, on prèviament s'han eliminat els registres no actius. Per treballar aquest llistat mínim s'han necessitat els camps Autor, Títol, MMS ID, Any i Permanent Call Number.

Paral·lelament descarreguem del DDD el llistat de les Tesis doctorals amb els camps Autor i Títol.

Del llistat d'ALMA fem dues columnes per comprovar de quins autor disposem de Tesis en paper (=COMPTE.SI.CONJUNT i de quins autors disposen de Tesis en microfitxa (=COMPTE.SI.CONJUNT"&"*"). I seleccionem aquells que sí tinguin Tesis en paper i no en microfitxa; dels 31032 registres queda una selecció de 12352 per comprovar.

Del camp Autor per fer les comprovacions s'extreu només els cognoms (=ESQUERRA-1)), s’elimina el punt final del camp (=SI=".";ESQUERRA-1);A1)) i també es comproven els que contenen alguna data. Amb aquestes modificacions es comprova si coincideix la totalitat del camp, només els cognoms o el primer cognom. També s'inclou guionet entre els dos cognoms.

Del camp Títol es creen varies columnes amb el títol sense el símbol " /" i sense el subtítol després dels dos punts (=ESQUERRA-1)), com està al llistat del DDD). I és canvien els apòstrofs que tenen format diferent al llistat del DDD. També en les següents comprovacions es té en compte els títols del DDD ens els quals no hi ha espai anterior al símbol :.

D’aquest mateix camp es comprova si a través del primers caràcters (25, 20, o 15) coincideixen amb el llistat del DDD (=CONSULV;'[Tesis DDD.xlsx]convert (4)'!$A:$A;1;FALS)) o si una part del títol coincideix (=CONSULV&"*";'[Tesis DDD.xlsx]convert (4)'!$A:$A;1;FALS)).

Per últim es combina la consulta on coincideixin els dos camps.

Es marquen els camps a una nova columna per poder fer la taula dinàmica: “Estan al DDD; Pendent de revisar; No està al DDD; Registres amb errors”

TS Actualitzat per Teresa Santos fa més d'un any Accions #22

Conclusions Finals

A la Universitat Autònoma de Barcelona, el Servei que se n’ocupa de la preservació i conservació de les tesis doctorals llegides a la pròpia Universitat, és el Servei de Biblioteques.

La Biblioteca de Comunicació i Hemeroteca General en la seva condició de biblioteca general, acull aquests exemplars a les seves instal·lacions.

Al llarg del temps les tesis han estat publicades en format paper, en format microfitxa i en format electrònic.

El procés habitual era que els estudiants dipositaven la teis a l’escola de Doctorat i aquesta remetia l’exemplar amb una còpia de l’acta, primer a la Biblioteca General i posterior a la desaparició d’aquesta, a la Biblioteca de Comunicació. Durant una època, els estudiants podien optar per publicar també la seva tesi en format microfitxa, però aquesta era una opció, mai va ser una obligació. Per tant, la quantitat de tesis microfitxades és una part petita. Posteriorment les tesis ja eren publicades simultàniament en paper i en format electrònic. La tesi en format electrònic és dipositada a TDX (https://www.tdx.cat/) i se n'encarrega el Servei de Publicacions de la UAB.

Les tesis han de ser considerades no tan sols com simples documents sinó pròpiament com a documents administratius, prova d’això és que en moltes institucions, és l’arxiu administratiu qui s’encarrega d’aquesta conservació.

Òptimament caldria tenir tota aquesta documentació preservada en format digital. Si bé es cert que durant alguna època es va fer alguna actuació puntual, com aquella que es va promoure des del CCUC, la realitat és un petit degoteig aprofitant qualsevol petició de consulta a través de PI.

Aquest estudi té com objectiu oferir unes dades per saber quantes tesis no es troben en cap altre format i fer una estimació dels costos econòmics que tindria el projecte.

A nivell material no totes les tesis presenten un format homogeni. La forma en la presentació d’aquests treballs sempre ha estat lliure per part de l’autor. En tenim enquadernades amb cartró dur, altres amb espiral metàl·lica, altres amb espiral de plàstic., algunes tenen material d’acompanyament. Hi ha que han estat escrites en paper de qualitat acceptable, algunes en paper brillant, altres en paper reciclat, paper molt estès durant una època. És precisament les que estan en papers reciclats de baixa qualitat i de tintes molt efímeres, que per molta cura en la preservació, acabaran degradant-se en un futur no molt llunya.

Extreure aquestes dades no ha estat una feina fàcil. Dos formats d’un mateix títol a nivell de catàleg són registres diferents. Això presenta divergències fins i tot en la puntuació de la mateixa etiqueta de títol. Per una altre part la comparació amb els registres existents en el DDD també és complicat. Sempre i quan hi hagi qualsevol diferència d’espai o de caràcter entre dues fonts diferents impossibilita una comparativa neta. La duplicitat existent a les pròpies biblioteques també ha dificultat la gestió de les dades.
S’han provat diverses formes com es pot veure en aquesta mateixa tasca: Extreure DDD i comparar amb catàleg, intentar comparar paper i microfitxa i electrònic, passar tots els títols paper per l’anàlisi de superposició d’Alma, però tots aquests intents no acabaven de donar un resultat òptim.

Finalment s’ha decidit extreure via analytics tots els títols que es troben a BCHG en format paper, amb les dades següents: MMSID, Title (Normalized), URL exist, lifecycle active.
La mateixa extracció s’ha fet però respecte a les tesis en microfitxa.
D’aquesta manera hem pogut saber quins títols que tenim en paper, tenen una versió electrònica. Això és correcte, sempre i quan el registre bibliogràfic tingui etiqueta 856. I el mateix de les microfitxes. Finalment dels dos llistats (paper i microfitxa) i que URL no existeix, s’han extret les dues llistes i s’han comparat entre elles. Tots els títols en paper que no s’han trobat en format microfitxa, són presumiblement els títols dels quals no hi ha cap més còpia i caldria digitalitzar.

S’adjunta a la tasca un pressupost antic per poder fer una extrapolació a nivell econòmic.

Resum de dades

Títols en paper a acd12 (dipòsit bchg) 15.286
Exemplars en paper a acd12 (dipòsit bchg) 17.006
Títols en format microfitxa a bchg (diverses localitzacions) 3.479
Exemplars en microfitxa a bchg (diverses localitzacions) 6.915 (de la major part de les microfitxes, existeixen 2 exemplars)
Tesis UAB al DDD 12.270

Tesis únicament en format paper 6.389

TS Actualitzat per Teresa Santos fa més d'un any Accions #23

  • Data de venciment ha canviat de 23-06-2024 a 15-09-2024
  • Estat ha canviat de En curs a Tancada
Accions

També disponible a: PDF Atom