Projecte

General

Perfil

Accions

Defecte #600

tancat
FJ

El caràcter de coma (,) és considerat indexable

Defecte #600: El caràcter de coma (,) és considerat indexable

Afegit per Anònim fa més de 16 anys. Actualitzat fa aproximadament 15 anys.

Estat:
Tancada
Prioritat:
Alta
Assignat a:
Temàtica prevista:
Inici:
Data de venciment:
Paraula clau:

Descripció

P. ex.,

Potser té alguna cosa a veure amb els valors del fitxer de configuració general?

## CFG_BIBINDEX_CHARS_ALPHANUMERIC_SEPARATORS -- characters considered as

## alphanumeric separators of word-blocks inside words.  You probably

## don't want to change this.

## CFG_BIBINDEX_CHARS_PUNCTUATION -- characters considered as punctuation

## between word-blocks inside words.  You probably don't want to

## change this.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #1

  • Assignat a ha canviat de nobody a Ferran Jorba

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #2

  • Estat ha canviat de Creada a Tancada

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #3

Ferran, m'he fixat que la indexació de la ',' passa en els casos en què hi ha un $d. Et serveix de res?

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #4

  • Estat ha canviat de Tancada a Creada

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #5

  • Prioritat ha canviat de medium a high

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #6

Ara he tret la coma de CFG_BIBINDEX_CHARS_ALPHANUMERIC_SEPARATORS i l'he deixat a CFG_BIBINDEX_CHARS_PUNCTUATION.

CR Actualitzat per Cristina Riera fa més de 16 anys Accions #8

Ferran,

Si fem la cerca "Riba, Carles" com a autor (http://traces.uab.cat/search?ln=ca&cc=tracesbib&p=riba%2C+carles&f=author&action_search=Cerca&c=tracesbib) en troba 12, i tots tenen $e. No troba però els registres en què Riba és a una 100 i en els quals hi ha $d. Per trobar-los cal fer la cerca "riba, carles," (http://traces.uab.cat/search?ln=ca&cc=tracesbib&p=riba%2C+carles%2C&f=author&action_search=Cerca&c=tracesbib). I això no ho farà ningú. Per trobar-los tots cal fer la cerca sense coma (,) i llavors també troba, per exemple, "Simposi Carles Riba" o "Carles Riba i Romeva", que és un altre senyor.

És probable que tot el problema sigui la coma (,) que precedeix el $d. Amb el $e no hi ha problema perquè la puntuació (o, en aquest cas, els parèntesis) són posteriors al subcamp. Per anar bé, el $d hauria de tenir una sintaxi semblant al $e. Per exemple: Riba, Carles $d (1893-1959). O bé: Riba, Carles $d, 1893-1959. Això és fer trampes, ja ho sé, però seria la solució als nostres problemes.

FJ Actualitzat per Ferran Jorba fa més de 16 anys Accions #9

Cristina,

justament jo també pensava en alguna solució d'aquest tipus, és a dir, modificar les dades. De fet, ahir vaig fer la segona prova, d'eliminar la coma tant a CFG_BIBINDEX_CHARS_ALPHANUMERIC_SEPARATORS com a CFG_BIBINDEX_CHARS_PUNCTUATION i em donava el mateix resultat. Segurament que quan tu vas provar-ho estava eliminat als dos paràmetres. De tota manera, vaig desconfiar que amb tants canvis no hagués canviat res i per tant vaig imaginar que potser la prova no estava prou ben feta, degut als cachés del servidor (Apache) o el client (navegador), i que potser m'hi hauria d'haver esmerat més.

A veure si en puc treure un resultat més concluent. Però sí, si no us sembla malament, ens reservem la modificació de la puntuació a les dades si no ho podem modificar per paràmetre.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #10

De moment triem fer trampes i fer aquest canvi global:

A totes les entrades X00, canviar la seqüència «, $d» per «$d , ».

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #11

A resultes d'unes cerques de tesis que estava fent al DDD, me n'he adonat que el comportament que volem de la coma ha de ser igual que el del guió, és a dir, com si fos invisible i no existeixi.

Acabo de reconfigurar les dues variables CFG_BIBINDEX_CHARS_ALPHANUMERIC_SEPARATORS i CFG_BIBINDEX_CHARS_PUNCTUATION de manera que la coma estigui només en la que és el guió, i a l'altra no.

Estic reindexant tot el Traces de proves (http://traces-test.uab.cat:2000/) amb aquesta nova configuració. Quan acabi avaluarem el resultat.

CR Actualitzat per Cristina Riera fa quasi 16 anys Accions #12

Ferran,

He fet un parell de proves i, a no ser que encara no s'hagi reindexat Traces proves, em sembla que tenim els mateixos resultats que abans. He fet cerques de "Xavier Montsalvatge" com a matèria i porten a resultats diferents:

Bé, anem estudiant-ho.

FJ Actualitzat per Ferran Jorba fa quasi 16 anys Accions #13

Estic d'acord amb tu. Un fracàs. El que m'ha passat és que, quan anava a escriure la nota, he volgut llegir amb atenció les pantalles d'ajuda de cerca, i m'ha semblat veure que la coma és rellevant. Ex:

Aleshores, el problema potser no només és amb la coma ''al final'', sinó que potser no entenem quines implicacions té una coma en ''qualsevol lloc''.

Cristina, tu podries treure'n l'aigua clara?

CR Actualitzat per Cristina Riera fa quasi 16 anys Accions #14

Ferran, no sabria dir-te quines implicacions pot tenir una coma. T'escric a quines conclusions he arribat, per si poden servir d'alguna cosa.

  • La fórmula d'expressió "cognom(s) nom" no té problemes. Busca les ocurrències en el camp seleccionat, siguin on siguin. A més, veig que, per exemple, cercant "Ribas Toni" (per matèria) troba registres en què hi ha "Riba" (i no Ribas) i "Toni". Ex: http://traces.uab.cat/record/59793?ln=ca
  • La fórmula d'expressió "cognom(s), nom" només troba aquells registres que, amb ocurrències idèntiques a l'expressió de cerca, o no tenen cap subcamp, o tenen el subcamps $e i $c. Respecte del $c, és curiós com troba "Víctor Català": http://traces.uab.cat/record/68767?ln=ca. En aquest cas, hi ha $d però és posterior al $c i per això el pot recuperar cercant "Català, Víctor". Quedaria per resoldre, però, la "coma" estranya que queda al final de l'autoritat.
  • La fórmula d'expressió "cognoms(s), nom," només recupera les ocurrències "cognom(s), nom, $d". He provat de fer un canvi al registre http://traces.uab.cat/record/68036?ln=ca (no pateixis, ja el tornaré a la seva antiga forma). El "Castellanos, Jordi, $d 1946-" l'he canviat per "Castellanos, Jordi $d, 1946-". He fet la cerca per autor de "Castellanos, Jordi" i el recupera. Un altre tema és que la visualització ens agradi.

Jo hi veig aquí part de la solució. Clar que potser no he acabat d'entendre la complexitat de tot plegat...

CR Actualitzat per Cristina Riera fa més de 15 anys Accions #15

Ferran, que hi ha hagut algun canvi, respecte de la indexació de la coma? Ho dic perquè que he provat de fer la cerca per matèria "Maragall, Joan" (http://traces.uab.cat/search?cc=tracesbib&p=Maragall%2C+joan&f=keyword) i ensenya un registre com aquest (http://traces.uab.cat/record/71978). Abans, per veure aquest registre s'havia de posar l'expressió "Maragall, Joan,", si no, no l'ensenyava. Baixo de l'hort?

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #16

He estat mirant si al CERN hi havia algun missatge referent al comportament de la coma i no he trobat res d'útil:

És a dir, que segurament el més prudent és modificar les dades.

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #17

Hem fet proves de modificacions automàtiques a partir del bolcat setmanal que fem dels registres. El programa detecta aquells registres que tinguin 100, 400, 500, 600. 700 amb $d i hi esborra la coma final d'abans del $d i hi afegeix parèntesi després del $d. Quasi sempre dóna resultats correctes, però en alguns casos (p. ex. quan hi ha $e) caldrà fer un repàs manual.

Per fer els canvis a Traces producció hem quedat així:

  • Fem un bolcat a la matinada del dia D.
  • Mentrestant, no es faran modificacions de registres existents.
  • Fem els canvis sobre el fitxer bolcat.
  • Tornem a carregar els registres arreglats (uns 17000 de 72000) a Traces.
  • Tornem a fer un bolcat de tots els registres, incloent els d'autoritats, perquè els catalalogadors els tinguin de referència.

Ja quedarem pel dia exacte.

CR Actualitzat per Cristina Riera fa més de 15 anys Accions #18

Després dels canvis que faci en Ferran, cal corregir manualment les 100, 400, 500, 600 i 700 que tinguin $d i $c d'una banda i $d i $e de l'altra.

CR Actualitzat per Cristina Riera fa més de 15 anys Accions #19

  • Estat ha canviat de Creada a Tancada

CR Actualitzat per Cristina Riera fa més de 15 anys Accions #20

Ferran, torno a insistir: alguna cosa ha passat amb la coma. Fixa't en aquesta cerca:

http://traces.uab.cat/search?cc=tracesbib&of=hd&jrec=11&p=Ors%2C+Eugeni+d%27&f=keyword

Està feta sense coma, i els primers 15 registres els ensenya amb anys, que és l'entrada d'autoritat d'Eugeni d'Ors, i la resta té el comportament habitual de la cerca feta sense 'coma' final (totes amb un $e). Em sembla tot un misteri.

Per cert, un exemple de fluctuació respecte de l'ús de la coma en les cerques, aquesta vegada, de mans de la UOC: mira la url de la cerca "Articles de l'autor (Traces)" i d'"Articles sobre l'autor (Traces)" a:

http://lletra.uoc.edu/ca/autor/eugeni-dors/biobibliografia

És de la segona cerca que ens vénen tots els mals: si ho resolem, de 25 que es veuen ara, se'n veurien 414.

CR Actualitzat per Cristina Riera fa més de 15 anys Accions #21

  • Estat ha canviat de Tancada a Creada

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #22

Dilluns 13 de desembre del 2010 a les 6 del matí farem una primera tongada de 10.000 modificacions.

CR Actualitzat per Cristina Riera fa més de 15 anys Accions #23

Queda pendent, un cop fet el canvi de la coma, corregir els parèntesis d'aquells casos en què hi ha un $d i un $e. Aplicar la correcció als camps 100, 400, 500, 600 i 700.

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #24

Jo diria que aquesta primera tongada ha anat bé, i ni tan sols ha fet malbé els que tenien més d'un subcamp (ex, $c o $e).


-    2 Abril, Albert, $d 1947-

+    1 Abril, Albert $d (1947-)

+    1 Abril, Albert, $d 1947-


-    5 Alacseal, Virgili $c (Pseudònim de Caterina Albert i Paradís), $d 1869-1966

+    3 Alacseal, Virgili $c (Pseudònim de Caterina Albert i Paradís) $d (1869-1966)

+    2 Alacseal, Virgili $c (Pseudònim de Caterina Albert i Paradís), $d 1869-1966


-  106 Albanell, Josep, $d 1945-

-    1 Albanell, Josep, $d 1945- $e (Ed.)

-    3 Albanell, Josep, $d 1945- $e (Pr.)

+    1 Albanell, Josep $d (1945- $e (Ed.)

+    1 Albanell, Josep $d (1945- $e (Pr.)

+   50 Albanell, Josep $d (1945-)

+   56 Albanell, Josep, $d 1945-

+    2 Albanell, Josep, $d 1945- $e (Pr.)

En deixem 10.000 més per demà, no?

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #25

S'han acabat tots (4893 registres canviats) i s'han regularitzat els que mancaven, ex:


-    1 Abril, Albert $d (1947-)

-    1 Abril, Albert, $d 1947-

+    2 Abril, Albert $d (1947-)


-    3 Alacseal, Virgili $c (Pseudònim de Caterina Albert i Paradís) $d (1869-1966)

-    2 Alacseal, Virgili $c (Pseudònim de Caterina Albert i Paradís), $d 1869-1966

+    5 Alacseal, Virgili $c (Pseudònim de Caterina Albert i Paradís) $d (1869-1966)


-    8 Artís, Andreu Avel·lí $d (1908-2006)

-   10 Artís, Andreu Avel·lí, $d 1908-2006

+   18 Artís, Andreu Avel·lí $d (1908-2006)

FJ Actualitzat per Ferran Jorba fa més de 15 anys Accions #26

Ja he passat la utilitat d'esborrar les entrades a zero que es veien fent clic a «Llista».

CR Actualitzat per Cristina Riera fa aproximadament 15 anys Accions #27

  • Estat ha canviat de Creada a Tancada

CR Actualitzat per Cristina Riera fa aproximadament 15 anys Accions #28

Corregits manualment els parèntesis dels casos que tenien $d i $e (als camps 100, 400, 500, 600 i 700). Tanco, doncs, la tasca.

Accions

També disponible a: PDF Atom