Tasca #4449
obertcerques dubtoses
Afegit per Cristina Riera fa aproximadament 9 anys. Actualitzat fa quasi 9 anys.
Descripció
M'he decidit a fer una tasca per aquells casos que no presenten resultats esperats en cerques determinades. La meva sospita és que alguna cosa passa en la indexació dels registres més nous.
EXEMPLE 1
Cerca: Havel, Václav
Qualsevol camp: 14 registres (tant si li poses la coma com si no)
https://traces.uab.cat/search?ln=ca&p=Havel+V%C3%A1clav&f=&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Virtual: 17 registres
https://traces.uab.cat/search?ln=ca&p=Havel%2C+V%C3%A1clav&f=virtual&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
la diferència són els tres registres últims, que per "qualsevol camp" no surten
EXEMPLE2:
Cerca: Vernissatge havel:
Qualsevol camp: 7 registres
https://traces.uab.cat/search?ln=ca&p=Vernissatge+havel&f=&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
però:
qualsevol camp: vernissatge havel václav: 4 registres
https://traces.uab.cat/search?ln=ca&p=Vernissatge+havel+vaclav&f=&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
La diferència és que no ensenya els tres últims registres.
Si em trobo casos semblants a aquests, els reuneixo aquí.
CR Actualitzat per Cristina Riera fa aproximadament 9 anys Accions #1
Un altre cas:
Una cerca per matèria de "Perés, Ramon D."
https://traces.uab.cat/search?ln=ca&p=Perés%2C+Ramon+D&f=keyword&action_search=Cerca
Cap dels 10 primers registres hi ha l'ocurrència "Perés, Ramon D.". El que fa és sumar Pere (o Pere$, per ex, Pereira) i Ramon, estiguin o no les dues paraules juntes.
CR Actualitzat per Cristina Riera fa aproximadament 9 anys Accions #2
Un altre cas:
Fem cerca sobre l'obra "La guerra de Jugurta": https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=guerra+de+jugurta&f=&action_search=Cerca. En troba 2.
Fem cerca sobre l'obra "La guerra de Jugurta" i Sal·lusti: https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=guerra+de+jugurta+sal·lusti&f=&action_search=Cerca. En troba 1.
Sal·lusti, però, és als dos registres de la primera cerca.
CR Actualitzat per Cristina Riera fa aproximadament 9 anys Accions #3
Sembla que hi ha algun problema amb la ela geminada "l·l"
Cerca: "il·lusions elementals ponç puigdevall": https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=il%C2%B7lusions+elementals+pon%C3%A7+puigdevall&f=&action_search=Cerca
No troba res.
En canvi, la cerca "elementals ponç puigdevall": https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=elementals+pon%C3%A7+puigdevall&f=&action_search=Cerca funciona.
Per quina raó, llavors, troba Sal·lusti de l'exemple anterior?
CR Actualitzat per Cristina Riera fa aproximadament 9 anys Accions #4
Un altre cas estrany;
El terme a cercar: Horácek, Petr
A qualsevol camp: https://traces.uab.cat/search?ln=ca&p=Horácek%2C+Petr&f=&action_search=Cerca 1 registre
A Virtual: https://traces.uab.cat/search?ln=ca&p=Horácek%2C+Petr&f=virtual&action_search=Cerca 2 registres
El que no ensenya la cerca a qualsevol camp és el més recent. Aquest comportament invalida una cerca d'una obra de l'autor com ara "La cabra goluda", que no duu enlloc: https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=cabra+goluda+petr+horacek&f=&action_search=Cerca
Per cercar l'obra i que trobi alguna cosa només podem posar "cabra goluda": https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=cabra+goluda&f=&action_search=Cerca
Pot ser un problema d'accents????
FJ Actualitzat per Ferran Jorba fa aproximadament 9 anys Accions #5
Doncs sí, sembla que hi ha un problema, al menys, amb la ela geminada. Aquesta setmana, que estic a la reunió del grup d'usuaris, he volgut acotar el cas i, d'entrada, he volgut reindexar els registres de l'exemple de la guerra de Jugurta de Sal·lusti. Després de reindexar-los, Sal·lusti només es troba si es cerca en dues paraules, substituint el punt volat per un espai:
https://traces.uab.cat/search?p=sal+lusti
No hauria de ser així, i crec que ho puc corregir, però al menys té un comportament consistent.
Una altra cosa que he fet és començar a reindexar tota la base de dades, des dels registres més recents als més antics. Ara està acabant el conjunt des del 60.000 al 70.000.
CR Actualitzat per Cristina Riera fa aproximadament 9 anys Accions #6
Amb el tema Sal·lusti, podem afegir, per si serveix per donar llum al problema:
1- Si el busquem com a matèria, i entre cometes, troba un registre: https://traces.uab.cat/search?ln=ca&p="Sal·lusti"&f=keyword&action_search=Cerca
2- Si el busquem com a matèria i sense cometes, en troba tres: https://traces.uab.cat/search?ln=ca&p=Sal·lusti&f=keyword&action_search=Cerca
El registre que resulta de la primera cerca no surt a la segona cerca. És a dir, entre les dues, sumen 4 registres
3- Si busquem sal lusti, sense el punt volat i amb un espai, i com a matèria, en troba sis, 5 dels quals no havien sortit en les dues cerques anteriors (un registre coincideix amb la cerca 1): https://traces.uab.cat/search?ln=ca&p=Sal+lusti&f=keyword&action_search=Cerca
4- Si busquem sal lusti sense punt volat i amb un espai, entre cometes i com a matèria, no troba res: https://traces.uab.cat/search?ln=ca&p="Sal+lusti"&f=keyword&action_search=Cerca
El tema: al persones txt ara tenim 9 Sal·lusti's, la suma de la cerca 2 i 3. No pot haver-hi un problema d'indexació, o el que sigui, que fos la causa blocs de registres quedessin que parametritzats de manera diferent?
CR Actualitzat per Cristina Riera fa quasi 9 anys Accions #7
Comprovacions posteriors a la nova indexació de TRACES:
- Hi ha problema amb els accents, està claríssim.
Fem comprovacions amb: Havel Václav
- cerca per qualsevol camps:
Havel Václav, en troba 1 (abans en trobava 14, segons exemple 1 de la tasca): https://traces.uab.cat/search?ln=ca&p=Havel+V%C3%A1clav&f=&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Si canviem la "á" de Václav, Havel V clav, per un espai blanc, en troba 18: https://traces.uab.cat/search?ln=ca&p=Havel+V+clav&f=&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Havel Vaclav, en troba 1: https://traces.uab.cat/search?ln=ca&p=Havel+Vaclav&f=&action_search=Cerca
- Cerca per matèria:
Havel Václav, 0 registres: https://traces.uab.cat/search?ln=ca&p=Havel+V%C3%A1clav&f=keyword&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Havel Vaclav, 0 registres: https://traces.uab.cat/search?ln=ca&p=Havel+Vaclav&f=keyword&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Havel V clav, 16 registres: https://traces.uab.cat/search?ln=ca&p=Havel+V+clav&f=keyword&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
- Cerca per autor:
Havel Václav, 1 registre: https://traces.uab.cat/search?ln=ca&p=Havel+Václav&f=author&action_search=Cerca
Havel Vaclav, 0 registres: https://traces.uab.cat/search?ln=ca&p=Havel+Vaclav&f=author&action_search=Cerca
Havel V clav, 0 registres: https://traces.uab.cat/search?ln=ca&p=Havel+V+clav&f=author&action_search=Cerca
CR Actualitzat per Cristina Riera fa quasi 9 anys Accions #8
- Diria que, de cara al problema amb els accents, la cerca per qualsevol camp i per matèria tenen comportaments semblants: no troben accents i sí espais en blanc.
- La cerca per autor, en canvi, accepta accents i no accepta que es canviï la vocal accentuada per un espai en blanc.
És probable que això passi amb totes les vocals accentuades, clar, però només ho he provat en amb la "á"
Fins aquí sembla que tindríem el problema acotat. El que desconcerta és que trobi aquest registre en una cerca per qualsevol camp, tant si escrivim Václav ,amb accent i sense accent, i Habel Václav amb o sense coma entre nom i cognom: https://traces.uab.cat/search?ln=ca&p=Havel+Vaclav&f=&action_search=Cerca
FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #9
- Estat ha canviat de Creada a En curs
- Temàtica prevista s'ha establert a Índexs
Gràcies, Cristina, he confirmat aquest comportament tant erràtic i em sembla que tinc una hipòtesi. Donat que al DDD aquestes cerques funcionen bé i és el mateix Invenio, m'he fixat en com estan creades les taules d'índexos de la base de dades, i hi he vist que no totes estan definides com a utf-8 (Unicode). Miro de canviar-les i, potser, tornar-ho a indexar un altre cop, si cal.
CR Actualitzat per Cristina Riera fa quasi 9 anys Accions #10
Ara, amb els canvis del Ferran, els resultats de les mateixes cerques han canviat:
- cerca per qualsevol camp:
Havel Václav, en troba 6 (ahir en trobava 1 [abans en trobava 14, segons exemple 1 de la tasca]: https://traces.uab.cat/search?ln=ca&p=Havel+V%C3%A1clav&f=&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Si canviem la "á" de Václav, Havel V clav, per un espai blanc, en troba 13 (ahir 18): https://traces.uab.cat/search?ln=ca&p=Havel+V+clav&f=&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Havel Vaclav, en troba 6 (ahir 1): https://traces.uab.cat/search?ln=ca&p=Havel+Vaclav&f=&action_search=Cerca
- Cerca per matèria:
Havel Václav, en troba 5 (ahir 0): https://traces.uab.cat/search?ln=ca&p=Havel+V%C3%A1clav&f=keyword&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Havel Vaclav, en troba 5 (ahir 0): https://traces.uab.cat/search?ln=ca&p=Havel+Vaclav&f=keyword&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
Havel V clav, en troba 11 (ahir 16): https://traces.uab.cat/search?ln=ca&p=Havel+V+clav&f=keyword&action_search=Cerca&c=Traces+%3A+base+de+dades+de+llengua+i+literatura+catalanes&sf=&so=d&rm=&rg=10&sc=1&of=hb
- Cerca per autor:
Havel Václav, en troba 1 (ahir 1): https://traces.uab.cat/search?ln=ca&p=Havel+Václav&f=author&action_search=Cerca
Havel Vaclav, en troba 0 (ahir 0): https://traces.uab.cat/search?ln=ca&p=Havel+Vaclav&f=author&action_search=Cerca
Havel V clav, en troba 0 (ahir 0): https://traces.uab.cat/search?ln=ca&p=Havel+V+clav&f=author&action_search=Cerca
- Cerca per l'opció Virtual: 17 registres: https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=Havel%2C+V%C3%A1clav&f=virtual&action_search=Cerca
FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #11
Veig que has contestat mentre jo actualtizava la tasca. El meu missatge és aquest:
Doncs no, després de tornar-ho a revisar tot, crec que el problema és el que es descriu a la tasca #4202. He vist que els dos Invenios no estaven sincronitzats, i aquesta matinada ho he fet i he començat a tornar-ho a reindexar. Ara mateix està pel 87.000 (ho faig del més recent al més antic). Crec que es registres amb número superior al 87.000 s'estan indexant correctament.
FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #12
- S'ha afegit relacionat amb Tasca #4202: Corregir error greu en les cerques
CR Actualitzat per Cristina Riera fa quasi 9 anys Accions #13
Després de la nova indexació (?), veiem que una cerca com aquesta no funciona:
Cerquem a qualsevol camp els mots: rafael tasis policiac alex martin: 0 registres: https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=rafael+tasis+policiac+alex+martin&f=&action_search=Cerca
Si traiem la paraula alex, la cerca funciona: mateixa cerca, amb 4 registres: https://traces.uab.cat/search?ln=ca&cc=tracesbib&sc=1&p=rafael+tasis+policiac+martin&f=&action_search=Cerca
Si en comtes de "alex" posem "lex" també funciona: https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=rafael+tasis+policiac+lex+martin&f=&action_search=Cerca
Hi ha algun problema amb les vocals accentuades en majúscula? En el cas d'Alex, sembla que només trobi les seqüències "Alex" i Álex" però no "Àlex"
Un altre cas: cerca a qualsevol camps dels mots: impulsos raimon avila: o registres: https://traces.uab.cat/search?ln=ca&cc=tracesbib&sc=1&p=impulsos+raimon+avila&f=&action_search=Cerca
Sense Avila, funciona: 1 registre: https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=impulsos+raimon&f=&action_search=Cerca
i posant vila en comptes de Avila, també: https://traces.uab.cat/search?ln=ca&cc=tracesbib&p=impulsos+raimon+vila&f=&action_search=Cerca
Caldria que pogués trobar alex, o avila, tant si la gent els posa amb accent com si no el posa, no?
FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #14
M'ho estic mirant sistemàticament. He de desfer i refer canvis quan va fer mal, que sembla que és la tasca #4202
FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #15
Crec (un altre cop) haver trobat la causa, efectivament relacionada amb com vaig intentar corregit l'error de la tasca #4202. El que he fet és separar explícitament cadascun dels caràcters «»“”„’¡¿, en comptes de deixar que se separin sols. L'explicació es basaria en com Invenio tracta els caràcters Unicode, que mai no he acabat d'entendre del tot.
Ara, per exemple, la primera cerca ja funciona:
He deixat que es reindexi tot Traces; com sempre, trigarà uns dies.
FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #16
Ara ja porta reindexat des del registre més recent (107.557) fins al 22.447, és a dir, tres quartes parts de la base de dades, i crec que el comportament d'aquestes cerques ha quedat corregit.
CR Actualitzat per Cristina Riera fa quasi 9 anys Accions #17
Ferran,
He fet un repàs i jo diria que ara el comportament és correcte. Moltes gràcies.
En tot cas, si et sembla, no tanco la tasca i si hi ha altres anomalies d'aquest tipus les anem posant aquí.
FJ Actualitzat per Ferran Jorba fa quasi 9 anys Accions #18
Tan de bo s'hagi corregit. Aquest cap de setmana he aprofitat per reindexar tot el DDD amb la mateixa correcció.