Tasca #2857
tancatAfegir el camp de llengua quan no n'hi hagi
Descripció
Excloure les col·leccions:
- docgra
- multimedia
- fonper (?)
Caldria fer-ho per detecció de llengua, en principi per trigrames.
Indicar-ho a les dues etiquetes, 041 i 546.
Aquesta actuació de millora ve donada pel procés de validació de Recolecta (D-Net).
Tasques relacionades 2 (0 obertes — 2 tancades)
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
- Temàtica prevista ha canviat de OAI: servidor a Accions de milllora de la qualitat
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
- Estat ha canviat de Creada a En curs
Ja està en marxa. La detecció la faig, efectivament, per trigrames, utilitzant el paquet Python http://code.google.com/p/guess-language/
Primer farem una primera passada molt conservadora. La lògica és la següent:
- Si té 008 amb la llengua (p. ex., si ve del catàleg), es copia a la 041 i s'afegeix la 546 amb el nom desenvolupat.
- Si no, de moment només farem aquells que: tingui 856 amb text complet, la detecció per trigrames no dóna errors, i el valor que dóna la detecció automàtica per trigrames és el mateix en el camp de títol que en els primers 5 KB de text del text complet.
S'han de corregir 13.609 registres, dels 21.624 que no tenen llengua, i eliminant-li els que són de les col·leccions docgra (6.812), multimedia (670) i fonper (15.133).
Ho anirà fent mica a mica cada dia uns quants centenars, i els caps de setmana uns quants milers.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
En aquesta primera fase, també per prudència, també havia restringit la llista a cinc llengües (català, castellà, anglès, francès i italià).
N'han quedat 813 de pendents.
Ara passo a una segona fase, mirant en que consisteixen els que queden. De moment, n'hi ha un munt que estan en llatí, i que ja ho tenen a la 008. En marxa!
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
Ara en queden 1253, que es poden agrupar en uns quants casos, i resumits en dos:
- 519 registres en els que la detecció de la llengua del títol dóna un resultat diferent a la llengua del PDF. Sovint perquè el títol és massa breu (ex: «Enquesta», «Noticiario», «Estadísticas», etc.), i o bé s'equivoca o no té prous dades per fer una detecció.
- 734 que no tenen un document PDF, o que el PDF no té un OCR acabat amb .txt i per tant no es pot comparar la detecció en els dos casos, o bé que la lectura del .txt de l'OCR dóna algun tipus d'error relacionat amb els diacrítics unicode.
A partir d'aquí, resulta fàcil solucionar-ne alguns automàticament. Per exemple, una part important del primer grup són els articles de les revistes Cunicultura o Selecciones agrícolas, que tenen tots els seus articles en castellà.
Hi ha casos curiosos, com que el sistema troba que el títol «Guions de Ràdio Barcelona» és francès, mentre que entén que els PDFs de vegades estan en castellà i altres en català, i per tant no hi fa res. També troba que tots els títols «La Guia de l'estudiant» són castellans, mentre que els PDFs són tots en català, i per tant, aplicant la meva regla de prudència, no hi ha afegit res automàticament. Quan hi ha documents amb PDFs en més d'una llengua, com que només n'agafo un, de PDF, també s'han quedat sense llengua automàtica (els pla de llengües de la UAB, les guies de biblioteques, etc.).
Continuo per assignar el castellà a tots els articles de Cunicultura i Selecciones avícolas?
CA Actualitzat per Cristina Azorin fa quasi 12 anys
Sí, sí, continua per tot el que es pugui fer automàticament i si al final queda una llista de coses per repassar ja la farem nosaltres.
FJ Actualitzat per Ferran Jorba fa quasi 12 anys
Fins ara només havia estat fent els que no tenien ni 041 ni 546. A partir d'avui el sistema també completarà els que tenen l'un però no l'altre. Són 431.
CA Actualitzat per Cristina Azorin fa quasi 12 anys
- Paraula clau s'ha establert a JR
CA Actualitzat per Cristina Azorin fa més de 11 anys
Pel validador de Recolecta em penso que és necessari que només mostri en DC el language codificat
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Cristina Azorin va escriure:
Pel validador de Recolecta em penso que és necessari que només mostri en DC el language codificat
Fet!
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Avui he afegit alguns remanents (gallec, basc, holandès, etc). Eren uns 100 registres. Deixo per demà els casos on hi ha discrepància entre la detecció de la llengua en el títol i el text complet.
CA Actualitzat per Cristina Azorin fa més de 11 anys
Quden molts?? Potser els podem repassar a ma, no?
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Doncs només me'n queden 62 que no he pogut detectar automàticament, que són aquests:
- http://ddd.uab.cat/record/117826
- http://ddd.uab.cat/record/102543
- http://ddd.uab.cat/record/88245
- http://ddd.uab.cat/record/88134
- http://ddd.uab.cat/record/86197
- http://ddd.uab.cat/record/81276
- http://ddd.uab.cat/record/81260
- http://ddd.uab.cat/record/81211
- http://ddd.uab.cat/record/81209
- http://ddd.uab.cat/record/81116
- http://ddd.uab.cat/record/81114
- http://ddd.uab.cat/record/81112
- http://ddd.uab.cat/record/81110
- http://ddd.uab.cat/record/81108
- http://ddd.uab.cat/record/81104
- http://ddd.uab.cat/record/81101
- http://ddd.uab.cat/record/81097
- http://ddd.uab.cat/record/81032
- http://ddd.uab.cat/record/80402
- http://ddd.uab.cat/record/80328
- http://ddd.uab.cat/record/80255
- http://ddd.uab.cat/record/73661
- http://ddd.uab.cat/record/71538
- http://ddd.uab.cat/record/71537
- http://ddd.uab.cat/record/68222
- http://ddd.uab.cat/record/68217
- http://ddd.uab.cat/record/63993
- http://ddd.uab.cat/record/61467
- http://ddd.uab.cat/record/61413
- http://ddd.uab.cat/record/61355
- http://ddd.uab.cat/record/60985
- http://ddd.uab.cat/record/60983
- http://ddd.uab.cat/record/60663
- http://ddd.uab.cat/record/60468
- http://ddd.uab.cat/record/59993
- http://ddd.uab.cat/record/59890
- http://ddd.uab.cat/record/59478
- http://ddd.uab.cat/record/55928
- http://ddd.uab.cat/record/49494
- http://ddd.uab.cat/record/48501
- http://ddd.uab.cat/record/33218
- http://ddd.uab.cat/record/33217
- http://ddd.uab.cat/record/33216
- http://ddd.uab.cat/record/33215
- http://ddd.uab.cat/record/33214
- http://ddd.uab.cat/record/33213
- http://ddd.uab.cat/record/33212
- http://ddd.uab.cat/record/33211
- http://ddd.uab.cat/record/33210
- http://ddd.uab.cat/record/33209
- http://ddd.uab.cat/record/33208
- http://ddd.uab.cat/record/33207
- http://ddd.uab.cat/record/33206
- http://ddd.uab.cat/record/33205
- http://ddd.uab.cat/record/33204
- http://ddd.uab.cat/record/33203
- http://ddd.uab.cat/record/33202
- http://ddd.uab.cat/record/33201
- http://ddd.uab.cat/record/33200
- http://ddd.uab.cat/record/33199
- http://ddd.uab.cat/record/29525
- http://ddd.uab.cat/record/2599
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Per cert, només cal que hi afegiu la 041, perquè, com que tinc el script ja posat cada nit, la 546 ja es posarà automàticament.
CA Actualitzat per Cristina Azorin fa més de 11 anys
L'Eulàlia ja ha arreglat els 62 registres.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Gràcies.
Ara que ja està tot muntat i els registres més urgents (per Recolecta) ja estan arreglats, que us sembla si el deixo que vagi arreglant de la mateixa manera la resta dels registres? Per exemple, això faria que registres com http://ddd.uab.cat/record/117427 tinguin la 041 a partir de la 546 que ja tenen, o viceversa, o a partir de la 008 si venen del catàleg (els cartells, per exemple), o que es detecti la llengua a partir del text complet, etc.
Resulta que són 19.580 registres, part dels quals no tindran llengua (les fotos, p. ex), però es pot normalitzar part de la resta, quan tinguem informació parcial.
Si us sembla bé, el deixaré que cada dia en vagi fent uns quants. Va bé?
CA Actualitzat per Cristina Azorin fa més de 11 anys
Una tasca 'automàtica' de veritat? Uuuff, no m'ho puc creure :-))) I tant que va bé!! Moltes gràcies!!
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Doncs ja està posat. Ja veurem quins remanents deixa...
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Data de venciment s'ha establert a 19-10-2014
CA Actualitzat per Cristina Azorin fa més de 11 anys
Hola Pilar,
Llevamos unos días haciendo acciones de calidad para mejorar nuestra validación en Recolecta pero hay algunas cosas confusas.
Los errores van cambiando de una validación a otra pero en algun caso no vemos exactamente cual es el error o es un error que no podremos solucionar de ninguna manera.
- por ejemplo, en el caso de las lenguas pienso que detecta el 'ger', aleman, como incorrecto porque son a mayoría de los registros que me aparecen
https://ddd.uab.cat/record/655
- y un ejemplo de los que no podremos solucionar es el caso de los años dobles para algunas revistas, si un número se publica en 2004-2005, los dos años deben aparecer en la fecha, no?
https://ddd.uab.cat/record/5016
Sobretodo me gustaría aclarar porque seguimos siendo 'No aptos', si nuestro nivel de cumplimiento me parece mucho más que aceptable.
Cristina Azorín
Hola Cristina:
Me imagino que estarás de vacaciones. Te mando las respuestas a las consultas que teníamos pendientes para empezar el curso escolar con buen pie.
1. El caso de los errores en el campo del idioma cuando el recurso está en alemán, el validador lo marca como fallo porque según el código ISO_639-3, el código para el alemán es "deu" y no “ger” (http://en.wikipedia.org/wiki/ISO_639-3)
2. El caso de los años dobles, el campo de fecha de publicación tiene formato "fecha" y por ello no se puede poner un intervalo. Os sugerimos poner el año en el que se publicó la revista, aunque el ejemplar cubra dos meses de dos años distintos. Es que no podemos cambiar ese campo.
Sobre la calificación de DDD, ya se ha actualizado y está APTO en la web.
Un abrazo y si quieres hablamos la semana que viene.
Pilar
CA Actualitzat per Cristina Azorin fa més de 11 anys
La solució pels dos temes podria ser canviar la sortida pel format OAI, o potser per a tot el Dublin core.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Aquesta és la llista de les 041. És ben curiós que de «ger» només en tenim 93, però vaja, en fi. A part dels errors obvis, em podríeu repassar quins codis d'idioma Marc21 no es corresponen amb el corresponent ISO_639-3, per fer les equivalències?
51161 cat
40285 spa
8912 eng
1408 fre
577 por
510 ita
418 mul
176 glg
159 baq
93 ger
76 lat
21 oci
17 spacat
8 spafreeng
6 ast
5 spafre
4 gre
3 swe
3 spafreengger
3 ara
2 zxx
2 occ
2 catspafreeng
2 ang
1 und
1 tuk
1 sps
1 spc
1 spaengfre
1 SPA
1 soa
1 rus
1 pc-
1 pa
1 Ita
1 hun
1 fra
1 engfre
1 dut
1 cateng
1 cast
1 cas
1 689
CA Actualitzat per Cristina Azorin fa més de 11 anys
Ok Ferran, repassem la llista.
Deixo aquí els comentaris de la Muntsa:
Cristina,
ja ho he trobat. Nosaltres hem de fer servir els codis de MARC21, que coincideixen amb Library of Congress Subject Headings, però no necessàriament amb la ISO 639-2
Em sembla que amb això en tindràs prou. Sinó ja m'ho diràs.
Muntsa
=============================
http://www.loc.gov/marc/languages/introduction.pdf
I el codi de llengua per a l'alemany (http://www.loc.gov/marc/languages/language_name.html)
Si ho vols mirar des de l'apartat Code Sequence (http://www.loc.gov/marc/languages/language_code.html#d) DEU no hi és
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Assignat a ha canviat de Ferran Jorba a Cristina Azorin
AH Actualitzat per Anna Hernandez Frey fa més de 11 anys
- Assignat a ha canviat de Cristina Azorin a Ferran Jorba
Ferran,
et passo dos tipus d'equivalències:
1) les que són errors del DDD que jo no puc arreglar perquè no tinc manera de saber exactament de quin registre es tracta:
1 SPA
1 pa
1 Ita
1 689
1 cast
1 cas
1 soa
1 rus
1 hun
1 fra
1 dut
2 ang
1 sps
1 spc
2 occ (per oci)
2) les que estan mapejades diferents al marc i a la ISO que són:
llengua -- marc -- iso
alemany -- ger -- deu
francès -- fre -- fra
En un primer moment pensava que havia de fer els canvis directament als registres del DDD i per això veuràs que hi ha algun deu i fra que s'haurien de canviar, ho sento.
FJ Actualitzat per Ferran Jorba fa més de 11 anys
Anna Hernandez va escriure:
2) les que estan mapejades diferents al marc i a la ISO que són:
llengua -- marc -- iso
alemany -- ger -- deu
francès -- fre -- fraEn un primer moment pensava que havia de fer els canvis directament als registres del DDD i per això veuràs que hi ha algun deu i fra que s'haurien de canviar, ho sento.
D'acord. Entenc, per tant, que, i tal com vam quedar amb la Cristina, que només es tracta que en la visualització DC (i en concret per l'OAI_DC), canviï aquests dos casos, l'alemany i el francès, ja que els demés són els mateixos (al menys en el conjunt de llengües que utilitzem majoritàriament al DDD).
CA Actualitzat per Cristina Azorin fa més de 11 anys
Exacte, entenem que al DDD seguim el marc i per tant no els canviarem, però si la ISO és l'estàndard per repositoris estaria bé que es seguís en el cas de l'OAI. Gràcies!
FJ Actualitzat per Ferran Jorba fa més de 11 anys
- Estat ha canviat de En curs a Tancada
Ja està. Per exemple, l'alemany:
- En Marc21, ger: http://ddd.uab.cat/record/123578/export/hm
- En DC, deu: http://ddd.uab.cat/record/123578/export/xd
El francès (i aquest multilingüe, a més!),
- En Marc21, fre: https://ddd.uab.cat/record/107964/export/hm
- En DC, fra: https://ddd.uab.cat/record/107964/export/xd
La mateixa regla està aplicada per la sortida OAI_DC, que és una lleugeríssima variant del DC en el que canvia alguna menudalla de la capçalera.
CA Actualitzat per Cristina Azorin fa més de 11 anys
- Paraula clau s'ha suprimit (
JR)
CA Actualitzat per Cristina Azorin fa aproximadament 4 anys
- S'ha afegit relacionat amb Tasca #6229: Assignar un codi en l'etiqueta 041 quan no existeixi en un registre