Tasca #2857: Afegir el camp de llengua quan no n'hi hagi - DDD - Gestor de projectes - Servei de Biblioteques de la UAB

Accions

Copiar enllaç

Tasca #2857

tancat

FJ FJ

Afegir el camp de llengua quan no n'hi hagi

Tasca #2857: Afegir el camp de llengua quan no n'hi hagi

Afegit per Ferran Jorba fa quasi 12 anys. Actualitzat fa més de 11 anys.

Estat:

Tancada

Prioritat:

Normal

Assignat a:

Ferran Jorba

Categoria:

Temàtica prevista:

Accions de milllora de la qualitat

Inici:

02-05-2014

Data de venciment:

19-10-2014

Paraula clau:

Descripció

Excloure les col·leccions:

docgra
multimedia
fonper (?)

Caldria fer-ho per detecció de llengua, en principi per trigrames.

Indicar-ho a les dues etiquetes, 041 i 546.

Aquesta actuació de millora ve donada pel procés de validació de Recolecta (D-Net).

Tasques relacionades 2 (0 obertes — 2 tancades)

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#1

Temàtica prevista ha canviat de OAI: servidor a Accions de milllora de la qualitat

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#2

Estat ha canviat de Creada a En curs

Ja està en marxa. La detecció la faig, efectivament, per trigrames, utilitzant el paquet Python http://code.google.com/p/guess-language/

Primer farem una primera passada molt conservadora. La lògica és la següent:

Si té 008 amb la llengua (p. ex., si ve del catàleg), es copia a la 041 i s'afegeix la 546 amb el nom desenvolupat.
Si no, de moment només farem aquells que: tingui 856 amb text complet, la detecció per trigrames no dóna errors, i el valor que dóna la detecció automàtica per trigrames és el mateix en el camp de títol que en els primers 5 KB de text del text complet.

S'han de corregir 13.609 registres, dels 21.624 que no tenen llengua, i eliminant-li els que són de les col·leccions docgra (6.812), multimedia (670) i fonper (15.133).

Ho anirà fent mica a mica cada dia uns quants centenars, i els caps de setmana uns quants milers.

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#3

En aquesta primera fase, també per prudència, també havia restringit la llista a cinc llengües (català, castellà, anglès, francès i italià).

N'han quedat 813 de pendents.

Ara passo a una segona fase, mirant en que consisteixen els que queden. De moment, n'hi ha un munt que estan en llatí, i que ja ho tenen a la 008. En marxa!

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#4

Ara en queden 1253, que es poden agrupar en uns quants casos, i resumits en dos:

519 registres en els que la detecció de la llengua del títol dóna un resultat diferent a la llengua del PDF. Sovint perquè el títol és massa breu (ex: «Enquesta», «Noticiario», «Estadísticas», etc.), i o bé s'equivoca o no té prous dades per fer una detecció.
734 que no tenen un document PDF, o que el PDF no té un OCR acabat amb .txt i per tant no es pot comparar la detecció en els dos casos, o bé que la lectura del .txt de l'OCR dóna algun tipus d'error relacionat amb els diacrítics unicode.

A partir d'aquí, resulta fàcil solucionar-ne alguns automàticament. Per exemple, una part important del primer grup són els articles de les revistes Cunicultura o Selecciones agrícolas, que tenen tots els seus articles en castellà.

Hi ha casos curiosos, com que el sistema troba que el títol «Guions de Ràdio Barcelona» és francès, mentre que entén que els PDFs de vegades estan en castellà i altres en català, i per tant no hi fa res. També troba que tots els títols «La Guia de l'estudiant» són castellans, mentre que els PDFs són tots en català, i per tant, aplicant la meva regla de prudència, no hi ha afegit res automàticament. Quan hi ha documents amb PDFs en més d'una llengua, com que només n'agafo un, de PDF, també s'han quedat sense llengua automàtica (els pla de llengües de la UAB, les guies de biblioteques, etc.).

Continuo per assignar el castellà a tots els articles de Cunicultura i Selecciones avícolas?

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#5

Sí, sí, continua per tot el que es pugui fer automàticament i si al final queda una llista de coses per repassar ja la farem nosaltres.

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#6

Fins ara només havia estat fent els que no tenien ni 041 ni 546. A partir d'avui el sistema també completarà els que tenen l'un però no l'altre. Són 431.

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#7

Paraula clau s'ha establert a JR

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#8

Pel validador de Recolecta em penso que és necessari que només mostri en DC el language codificat

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#9

Cristina Azorin va escriure:

Pel validador de Recolecta em penso que és necessari que només mostri en DC el language codificat

Fet!

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#10

Avui he afegit alguns remanents (gallec, basc, holandès, etc). Eren uns 100 registres. Deixo per demà els casos on hi ha discrepància entre la detecció de la llengua en el títol i el text complet.

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#11

Quden molts?? Potser els podem repassar a ma, no?

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#12

Doncs només me'n queden 62 que no he pogut detectar automàticament, que són aquests:

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#13

Per cert, només cal que hi afegiu la 041, perquè, com que tinc el script ja posat cada nit, la 546 ja es posarà automàticament.

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#14

L'Eulàlia ja ha arreglat els 62 registres.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#15

Gràcies.

Ara que ja està tot muntat i els registres més urgents (per Recolecta) ja estan arreglats, que us sembla si el deixo que vagi arreglant de la mateixa manera la resta dels registres? Per exemple, això faria que registres com http://ddd.uab.cat/record/117427 tinguin la 041 a partir de la 546 que ja tenen, o viceversa, o a partir de la 008 si venen del catàleg (els cartells, per exemple), o que es detecti la llengua a partir del text complet, etc.

Resulta que són 19.580 registres, part dels quals no tindran llengua (les fotos, p. ex), però es pot normalitzar part de la resta, quan tinguem informació parcial.

Si us sembla bé, el deixaré que cada dia en vagi fent uns quants. Va bé?

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#16

Una tasca 'automàtica' de veritat? Uuuff, no m'ho puc creure :-))) I tant que va bé!! Moltes gràcies!!

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#17

Doncs ja està posat. Ja veurem quins remanents deixa...

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#18

Data de venciment s'ha establert a 19-10-2014

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#19

Hola Pilar,

Llevamos unos días haciendo acciones de calidad para mejorar nuestra validación en Recolecta pero hay algunas cosas confusas.

Los errores van cambiando de una validación a otra pero en algun caso no vemos exactamente cual es el error o es un error que no podremos solucionar de ninguna manera.

- por ejemplo, en el caso de las lenguas pienso que detecta el 'ger', aleman, como incorrecto porque son a mayoría de los registros que me aparecen
https://ddd.uab.cat/record/655

- y un ejemplo de los que no podremos solucionar es el caso de los años dobles para algunas revistas, si un número se publica en 2004-2005, los dos años deben aparecer en la fecha, no?
https://ddd.uab.cat/record/5016

Sobretodo me gustaría aclarar porque seguimos siendo 'No aptos', si nuestro nivel de cumplimiento me parece mucho más que aceptable.
Cristina Azorín

Hola Cristina:

Me imagino que estarás de vacaciones. Te mando las respuestas a las consultas que teníamos pendientes para empezar el curso escolar con buen pie.

1. El caso de los errores en el campo del idioma cuando el recurso está en alemán, el validador lo marca como fallo porque según el código ISO_639-3, el código para el alemán es "deu" y no “ger” (http://en.wikipedia.org/wiki/ISO_639-3)

2. El caso de los años dobles, el campo de fecha de publicación tiene formato "fecha" y por ello no se puede poner un intervalo. Os sugerimos poner el año en el que se publicó la revista, aunque el ejemplar cubra dos meses de dos años distintos. Es que no podemos cambiar ese campo.

Sobre la calificación de DDD, ya se ha actualizado y está APTO en la web.

Un abrazo y si quieres hablamos la semana que viene.

Pilar

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#20

La solució pels dos temes podria ser canviar la sortida pel format OAI, o potser per a tot el Dublin core.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#21

Aquesta és la llista de les 041. És ben curiós que de «ger» només en tenim 93, però vaja, en fi. A part dels errors obvis, em podríeu repassar quins codis d'idioma Marc21 no es corresponen amb el corresponent ISO_639-3, per fer les equivalències?

  51161 cat
  40285 spa
   8912 eng
   1408 fre
    577 por
    510 ita
    418 mul
    176 glg
    159 baq
     93 ger
     76 lat
     21 oci
     17 spacat
      8 spafreeng
      6 ast
      5 spafre
      4 gre
      3 swe
      3 spafreengger
      3 ara
      2 zxx
      2 occ
      2 catspafreeng
      2 ang
      1 und
      1 tuk
      1 sps
      1 spc
      1 spaengfre
      1 SPA
      1 soa
      1 rus
      1 pc-
      1 pa
      1 Ita
      1 hun
      1 fra
      1 engfre
      1 dut
      1 cateng
      1 cast
      1 cas
      1 689

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#22

Ok Ferran, repassem la llista.

Deixo aquí els comentaris de la Muntsa:

Cristina,

ja ho he trobat. Nosaltres hem de fer servir els codis de MARC21, que coincideixen amb Library of Congress Subject Headings, però no necessàriament amb la ISO 639-2

Em sembla que amb això en tindràs prou. Sinó ja m'ho diràs.

Muntsa

=============================

http://www.loc.gov/marc/languages/introduction.pdf

I el codi de llengua per a l'alemany (http://www.loc.gov/marc/languages/language_name.html)

Si ho vols mirar des de l'apartat Code Sequence (http://www.loc.gov/marc/languages/language_code.html#d) DEU no hi és

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#23

Assignat a ha canviat de Ferran Jorba a Cristina Azorin

AH Actualitzat per Anna Hernandez Frey fa més de 11 anys Accions
Copiar enllaç
#24

Assignat a ha canviat de Cristina Azorin a Ferran Jorba

Ferran,

et passo dos tipus d'equivalències:

1) les que són errors del DDD que jo no puc arreglar perquè no tinc manera de saber exactament de quin registre es tracta:

1 SPA
      1 pa
      1 Ita
      1 689
      1 cast
      1 cas
      1 soa
      1 rus
      1 hun
      1 fra
      1 dut
      2 ang
      1 sps
      1 spc
      2 occ  (per oci)

2) les que estan mapejades diferents al marc i a la ISO que són:

llengua  -- marc -- iso
 alemany -- ger  -- deu
 francès -- fre  -- fra

En un primer moment pensava que havia de fer els canvis directament als registres del DDD i per això veuràs que hi ha algun deu i fra que s'haurien de canviar, ho sento.

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#25

Anna Hernandez va escriure:

2) les que estan mapejades diferents al marc i a la ISO que són:

llengua -- marc -- iso
alemany -- ger -- deu
francès -- fre -- fra

En un primer moment pensava que havia de fer els canvis directament als registres del DDD i per això veuràs que hi ha algun deu i fra que s'haurien de canviar, ho sento.

D'acord. Entenc, per tant, que, i tal com vam quedar amb la Cristina, que només es tracta que en la visualització DC (i en concret per l'OAI_DC), canviï aquests dos casos, l'alemany i el francès, ja que els demés són els mateixos (al menys en el conjunt de llengües que utilitzem majoritàriament al DDD).

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#26

Exacte, entenem que al DDD seguim el marc i per tant no els canviarem, però si la ISO és l'estàndard per repositoris estaria bé que es seguís en el cas de l'OAI. Gràcies!

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#27

Estat ha canviat de En curs a Tancada

Ja està. Per exemple, l'alemany:

En Marc21, ger: http://ddd.uab.cat/record/123578/export/hm
En DC, deu: http://ddd.uab.cat/record/123578/export/xd

El francès (i aquest multilingüe, a més!),

En Marc21, fre: https://ddd.uab.cat/record/107964/export/hm
En DC, fra: https://ddd.uab.cat/record/107964/export/xd

La mateixa regla està aplicada per la sortida OAI_DC, que és una lleugeríssima variant del DC en el que canvia alguna menudalla de la capçalera.

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#28

Paraula clau s'ha suprimit (JR)

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions
Copiar enllaç
#29

S'ha afegit relacionat amb Tasca #6229: Assignar un codi en l'etiqueta 041 quan no existeixi en un registre

Accions

Copiar enllaç

També disponible a: PDF Atom

	relacionat amb DDD - Tasca #2224: La llengua en el traspàs de registres de millennium	Tancada	Ferran Jorba	22-03-2013		Accions
	relacionat amb DDD - Tasca #6229: Assignar un codi en l'etiqueta 041 quan no existeixi en un registre	Tancada	Javier Planella	26-01-2021	22-09-2022	Accions

Projecte

General

Perfil

DDD

Consultes personalitzades

Tasca #2857

Afegir el camp de llengua quan no n'hi hagi

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#1

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#2

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#3

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#4

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#5

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#6

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#7

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#8

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#9

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#10

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#11

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#12

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#13

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#14

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#15

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#16

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#17

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#18

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#19

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#20

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#21

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#22

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#23

AH Actualitzat per Anna Hernandez Frey fa més de 11 anys Accions
Copiar enllaç
#24

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#25

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#26

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#27

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#28

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions
Copiar enllaç
#29

Projecte

General

Perfil

DDD

Consultes personalitzades

Tasca #2857

Afegir el camp de llengua quan no n'hi hagi

FJ Actualitzat per Ferran Jorba fa quasi 12 anys AccionsCopiar enllaç #1

FJ Actualitzat per Ferran Jorba fa quasi 12 anys AccionsCopiar enllaç #2

FJ Actualitzat per Ferran Jorba fa quasi 12 anys AccionsCopiar enllaç #3

FJ Actualitzat per Ferran Jorba fa quasi 12 anys AccionsCopiar enllaç #4

CA Actualitzat per Cristina Azorin fa quasi 12 anys AccionsCopiar enllaç #5

FJ Actualitzat per Ferran Jorba fa quasi 12 anys AccionsCopiar enllaç #6

CA Actualitzat per Cristina Azorin fa quasi 12 anys AccionsCopiar enllaç #7

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #8

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #9

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #10

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #11

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #12

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #13

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #14

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #15

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #16

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #17

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #18

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #19

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #20

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #21

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #22

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #23

AH Actualitzat per Anna Hernandez Frey fa més de 11 anys AccionsCopiar enllaç #24

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #25

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #26

FJ Actualitzat per Ferran Jorba fa més de 11 anys AccionsCopiar enllaç #27

CA Actualitzat per Cristina Azorin fa més de 11 anys AccionsCopiar enllaç #28

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys AccionsCopiar enllaç #29

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#1

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#2

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#3

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#4

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#5

FJ Actualitzat per Ferran Jorba fa quasi 12 anys Accions
Copiar enllaç
#6

CA Actualitzat per Cristina Azorin fa quasi 12 anys Accions
Copiar enllaç
#7

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#8

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#9

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#10

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#11

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#12

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#13

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#14

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#15

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#16

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#17

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#18

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#19

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#20

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#21

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#22

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#23

AH Actualitzat per Anna Hernandez Frey fa més de 11 anys Accions
Copiar enllaç
#24

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#25

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#26

FJ Actualitzat per Ferran Jorba fa més de 11 anys Accions
Copiar enllaç
#27

CA Actualitzat per Cristina Azorin fa més de 11 anys Accions
Copiar enllaç
#28

CA Actualitzat per Cristina Azorin fa aproximadament 4 anys Accions
Copiar enllaç
#29