Projecte

General

Perfil

Accions

Tasca #5222

tancat
CA FJ

Establir diferències en les cerques per ñ o ç

Tasca #5222: Establir diferències en les cerques per ñ o ç

Afegit per Cristina Azorin fa més de 7 anys. Actualitzat fa aproximadament 7 anys.

Estat:
Tancada
Prioritat:
Normal
Assignat a:
Categoria:
Gestió de la col·lecció
Inici:
30-11-2018
Data de venciment:
20-12-2018
Paraula clau:

Descripció

Ara mateix el DDD dóna els mateixos resultats si busques per ñ o per n:

- https://ddd.uab.cat/search?p=pe%C3%B1a
- https://ddd.uab.cat/search?p=pena

El mateix passa amb la ç:

- https://ddd.uab.cat/search?p=pe%C3%A7a
- https://ddd.uab.cat/search?p=peca

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #1

Sí, això és així, i aquesta és la tradició, i així acostumen a funcionar tots els indexadors quan es tracta de l'alfabet llatí, al menys. A la ç i la ñ, els caràcters , i ~ són diacrítics, com ho són els accents, aguts, greus, circumflexes o dièresis.

Funciona així amb la versió actual d'Invenio, però el futur indexador per Invenio 3, ElasticSearch, també es comporta de la mateixa manera (https://www.elastic.co/guide/en/elasticsearch/guide/master/asciifolding-token-filter.html), com també a l'indexador a text complet de SQLite (https://sqlite.org/fts5.html#unicode61_tokenizer).

El DSpace (que em sembla que utilitza Lucene, la generació anterior de l'ElasticSearch) també funciona de la mateixa manera:

Finalment, si fins avui el DDD ha funcionat d'aquesta manera, em semblaria una mica arriscat canviar-ne el comportament. D'on ha sortit, aquesta petició?

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #2

De pensar que en el catàleg el comportament no és aquest.

FJ Actualitzat per Ferran Jorba fa més de 7 anys Accions #3

Sí, ho he comprovat, teniu raó. El meu marge de maniobra actual és mínim, o massa costós (escolliu la opció que preferiu), perquè està programat així i no dóna opció de canviar-lo. En tot cas, llegint-me amb atenció com diu que ho farà ElasticSearch, la seva proposta (https://www.elastic.co/guide/en/elasticsearch/guide/master/asciifolding-token-filter.html) és aquesta: la cerca dóna el mateix resultat, perquè indexa amb i sense diacrítics, però si ho cerques amb diacrítics, li puja la prioritat (així mostra abans Itàlia que italià, tot i que si cerques italia te'ls troba tots dos).

CA Actualitzat per Cristina Azorin fa més de 7 anys Accions #4

  • Estat ha canviat de Creada a Tancada

Bé, era això... un tema que volia parlar amb tu i saber les possibilitats de canvi. O en tot cas, si algú es preguntava el funcionament en el futur ja estaria apuntat en una tasca. Gràcies!!

CA Actualitzat per Cristina Azorin fa aproximadament 7 anys Accions #5

  • Paraula clau s'ha suprimit (JR)
Accions

També disponible a: PDF Atom