Tasca #5528
obertNoms duplicats en els fitxers del Liceu
Descripció
Mirant de posar ordre a les relacions entre fitxers i registres, me n'he adonat que, al menys en el cas del Liceu, hi ha fitxers amb el nom duplicat, per exemple:
http://volum-i.uab.cat/search?q=10250-023@societatliceu
De moment ho deixo apuntat aquí, però crec que ens hi haurem d'entretenir una mica i posar-hi ordre, perquè si no, estem adjuntant als registres pdfs que no toquen, perquè estan duplicats en més d'un registre, per exemple:
Fitxers
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- Categoria s'ha establert a Gestió de la col·lecció
- Assignat a s'ha establert a Ferran Jorba
- Temàtica prevista s'ha establert a Accions de milllora de la qualitat
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- S'ha afegit relacionat amb Tasca #4831: Arxiu Històric de la Societat del Gran Teatre de Liceu- 2019
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- S'ha actualitzat Descripció (diferències)
MG Actualitzat per Montserrat Gutiérrez fa més de 6 anys
Els noms dels fitxers del Liceu ens venen donats per la Societat del GTL que va fer un inventari de la documentació en un excell on es van anar descrivint i numerant els diferents documents. El problema és que en un mateix número es poden agrupar més d'un document o més d'un dossier.
Sempre que ens hem adonat d'aquesta anomalia hem numerat cada document amb el número original + un número d'ordre correlatiu (ex: 10250-001). No sempre podem detectar aquesta duplicitat de noms ja que la documentació no està encaixada seguint cap ordre numèric ni tampoc es digitalitza en la mateixa fase.
Nosaltres ens pensàvem que si els fitxers no eren del mateix directori no hi havia problema.
Els exemples que indiques són documents que efectivament tenen els noms duplicats però són de directoris diferents, uns són documents de 1881 i els altres de 1889 i en les fitxes del DDD estan barrejats.
FJ Actualitzat per Ferran Jorba fa més de 6 anys
- Estat ha canviat de Creada a En curs
Hola Montse,
efectivament, no hauria de passar res si es diuen igual i estan en directoris diferents, i entenc que no és possible controlar que n'hi hagi per afegir-hi números correlatius.
El problema el tinc jo, d'alguna manera, a l'hora de copiar-los des del Volum-I al Clariion (per fer-los públics al DDD), perquè en el moment de localitzar els fitxers agafa el primer que troba amb el nom que li poseu al 856. El programa que fa la còpia no té altra informació que el número identificador, que es correspon amb el nom del fitxer. Estrictament, el que fa és: http://volum-i.uab.cat/search?q=10250-023@societatliceu, mira si existeix ja al Clariion i si no, agafa el primer del resultat de la cerca al Volum-I. Tens alguna idea de com els podria distingir? Per l'any, potser?
MG Actualitzat per Montserrat Gutiérrez fa més de 6 anys
Hola Ferran,
Crec que l’any pot ser viable però podem parlar i mirar-ho amb calma? T’ho comento pel següent: cada nova fase de digitalització pot comportar treballar amb documentació d’anys ja digitalitzats amb anterioritat.
Nosaltres tenim la seguretat que en cada fase de digitalització, dins del mateix directori, no es dupliquen els noms però no podem assegurar que no n’hi hagin en els fitxers d’altres directoris o en digitalitzacions passades. Un exemple clar és el següent:
/mnt/VOLUM-5/1-13/ddd/societatliceu/humanitats-societatliceu-4/expedients/1881/10250-023@societatliceu/
/mnt/VOLUM-5/1-13/ddd/societatliceu/humanitats-societatliceu-4/expedients/1889/10250-023@societatliceu/
Per nosaltres aquests dos documents estan associats a dos registres del ddd diferents, un per cada any.
Podem parlar-ne amb una mica de calma? Replantejar-nos els canvis de noms comporta també canviar tiff i jpg al volum.i però també en els diferents discs que ens facilita l’empresa digitalitzadora, tant els que tenim nosaltres com els que tenen a la Societat del GTL.
FJ Actualitzat per Ferran Jorba fa més de 6 anys
Si, mirem de quedar per parlar-ne.
CA Actualitzat per Cristina Azorin fa aproximadament 6 anys
- Data de venciment s'ha establert a 18-05-2020
- Paraula clau s'ha establert a NC
CA Actualitzat per Cristina Azorin fa aproximadament 6 anys
- Paraula clau ha canviat de NC a NCR
MG Actualitzat per Montserrat Gutiérrez fa aproximadament 6 anys
- S'ha afegit Fitxer liceu_duplicats_ddd.xlsx liceu_duplicats_ddd.xlsx
Hola Ferran,
En aquest excell hi ha el llistat dels noms duplicats al DDD
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
D'acord amb la reunió que hem tingut amb la Montse aquest matí, i en coordinació amb l'Ana Lopo, començo la tasca.
En primer lloc, abans pròpiament de corregir els duplicats, cal fer una correcció prèvia de les 856 del Liceu, que consisteix en afegir el número de registre a les urls, per tenir junts (en un directori o carpeta) els documents d'un sol registre, i no barrejats en els de registres diferents, per exemple:
- Abans: https://ddd.uab.cat/pub/societatliceu/societatliceuadm/1889/10250-001@societatliceu.pdf
- Després: https://ddd.uab.cat/pub/societatliceu/societatliceuadm/1889/214474/10250-001@societatliceu.pdf
De fet, a bona part de les altres col·leccions (articles, tesis, tfgs, etc) ja ho tenim així. Començo doncs amb aquesta part de la tasca per la col·lecció https://ddd.uab.cat/collection/societatliceuadm, i ja informaré quan estigui completada.
MG Actualitzat per Montserrat Gutiérrez fa aproximadament 6 anys
Les 856 que com a any contenen els valors 1xxx i 18 són correctes. En el volum-i existeixen aquests directoris.
Els registres on es descriuen aquests fitxers tenen el valor del camp 260 $c que els hi correspon, és a dir, la data real dels documents en qüestió.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
Ja estan normalitzades les 856 d'aquestes col·leccions:
- https://ddd.uab.cat/collection/societatliceuadm
- https://ddd.uab.cat/collection/societatliceucar
- https://ddd.uab.cat/collection/societatliceudirent
- https://ddd.uab.cat/collection/societatliceudoctec
Les altres les aniré fent en les properes hores o dies; ja aniré actualitzant la tasca.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
Ja estan canviades les 856 de les darreres dues col·leccions:
A partir d'aquí ja podem fer la segona fase, canviar els fitxers duplicats pels correctes.
MG Actualitzat per Montserrat Gutiérrez fa aproximadament 6 anys
Nosaltres anem arreglant els fitxers duplicats i avisarem quan estigui tot corregit
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
El canvi dels fitxers incorrectes pels correctes està molt avançat, però hi ha alguns casos que caldrà revisar manualment. Quan tingui el llistat d'una manera que sigui clar d'entendre, ja el penjaré a aquesta tasca.
FJ Actualitzat per Ferran Jorba fa aproximadament 6 anys
El problema el crea l'existència, inevitable, perquè ve de l'origen, de l'inventari de la documentació de la Societat del Liceu de documents diferents amb la mateixa identificació o número de registre. Es pot donar el cas que en aquest número de registre s'hi barrejessin documents de tipus diferents i d'anys diferents, que cal tractar, inventariar i catalogar en registres diferents.
Aquesta identificació diferent té dos aspectes: l'un, com a noms dels fitxers (856), i l'altre com a identificador extern de registre (035).
- Com a fitxers diferents, fa nosa, però no és greu; tenim fitxers amb el mateix nom (p. ex., en tesis) en registres diferents, però com que no són identificadors, no passa res, més enllà que sigui emprenyador o faci més o menys lleig.
- Però com a identificadors de registre, sí, perquè a l'hora d'importar-los a Invenio, els sobreescriu o, en el programa de convertir d'Excel a Marc21, crea registres amb etiquetes duplicades, com és el cas.
Com que la realitat és la que és, i canviar els identificadors de l'inventari del Liceu seria una solució pitjor que el problema, hem pactat que el programa de conversió a Marc21 detecti el problema però no faci mal, només avisi. I, perquè no es generin identificadors que ja existeixi, hi afegirà una lletra. Per exemple, si l'identificador 10349-209 apareix dos cops, en el segon el programa hi afegirà un guionet i una lletra consecutiva (-A, -B, etc., i igual farà amb el fitxer corresponent: 10349-209-A@societatliceu.pdf, i successius). El fitxer no el trobarà, però també servirà per veure que no el troba i que és un cas que cal revisar i solucionar a mà.
MG Actualitzat per Montserrat Gutiérrez fa aproximadament 6 anys
- documents diferents d'anys diferents
- documents iguals que estan en anys diferents, en concret són 8 fitxers de la col·lecció d'escenografies que es van utilitzar per dues òperes diferents
MG Actualitzat per Montserrat Gutiérrez fa aproximadament 6 anys
- documents diferents d'anys diferents
- documents iguals que estan en anys diferents, en concret són 8 fitxers de la col·lecció d'escenografies que es van utilitzar per dues òperes diferents
Ferran Jorba va escriure:
Com que la realitat és la que és, i canviar els identificadors de l'inventari del Liceu seria una solució pitjor que el problema, hem pactat que el programa de conversió a Marc21 detecti el problema però no faci mal, només avisi. I, perquè no es generin identificadors que ja existeixi, hi afegirà una lletra. Per exemple, si l'identificador 10349-209 apareix dos cops, en el segon el programa hi afegirà un guionet i una lletra consecutiva (-A, -B, etc., i igual farà amb el fitxer corresponent: 10349-209-A@societatliceu.pdf, i successius). El fitxer no el trobarà, però també servirà per veure que no el troba i que és un cas que cal revisar i solucionar a mà.
Ja ho hem intentat explicar en Tasca #5556 però no sé si ha quedat gaire clar.
Crec que el programa de conversió a Marc21 detecta el problema però duplica els registres en la mateixa fitxa:
https://ddd-test.uab.cat/record/186268
https://ddd-test.uab.cat/record/186269
En aquest cas es tracta d'un error, no existeixen dos fitxers amb el mateix nom.
CA Actualitzat per Cristina Azorin fa quasi 6 anys
- Data de venciment ha canviat de 18-05-2020 a 31-07-2020
Tasca pendent del retorn al treball presencial.
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Data de venciment ha canviat de 31-07-2020 a 20-11-2020
CA Actualitzat per Cristina Azorin fa més de 5 anys
- Data de venciment ha canviat de 20-11-2020 a 26-02-2021
- Assignat a ha canviat de Ferran Jorba a Montserrat Gutiérrez
- Prioritat ha canviat de Normal a Baixa
CA Actualitzat per Cristina Azorin fa aproximadament 5 anys
- Data de venciment ha canviat de 26-02-2021 a 25-06-2021
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys
- Data de venciment ha canviat de 25-06-2021 a 25-06-2022
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys
- Paraula clau s'ha suprimit (
NCR)