Tasca #2380
tancatTasca #2439: Objectius i tasques per fer a casa en teletreball fins a 31 octubre 2013 (Ferran)
Arreglar la cerca a text complet (reindexar tota la base de dades)
Descripció
La taula d'índex de text complet estava definida massa petita i s'ha omplert a l'arribar a les 14 milions de paraules diferents (hi ha molta porqueria de l'OCR). Cal reindexar tot el DDD a text complet. Val la pena fer com en el camp de resum i indexar-ho amb les regles de stemming (http://en.wikipedia.org/wiki/Stemming) i indexar les arrels de les paraules, per poder recuperar les diferents variants de les paraules.
S'ha de poder fer tant com sigui possible a fora d'hores de feina per no col·lapsar el sistema: preferiblement el cap de setmana, i també de nits.
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Estat ha canviat de En curs a Tancada
Acabat. De passada hem activat la indexació a partir de l'arrel de les paraules (http://en.wikipedia.org/wiki/Stemming), de manera que troba igual masculins que femenins, singulars o plurals, i fa sinònomes algunes formes verbals.
Aquesta tasca ha estat especialment llarga, perquè ha generat un índex de més de 30 milions d'entrades i més de 2 GB de disc, i es tractava d'anar-ho fent sobretot fora d'hores, per no col·lapsar el sistema.
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Tasca pare s'ha establert a #2439
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Tema ha canviat de Reindexar el text complet a Arreglar la cerca a text complet (reindexar tota la base de dades)
FJ Actualitzat per Ferran Jorba fa més de 12 anys
- Data de venciment s'ha establert a 29-07-2013
NC Actualitzat per Núria Casaldaliga fa més de 12 anys
- Paraula clau s'ha establert a JR
CA Actualitzat per Cristina Azorin fa aproximadament 12 anys
- Paraula clau s'ha suprimit (
JR)