
Hola Jordi (i altres), donant voltes al que vam parlar en la darrera reunió mensual, et passo uns enllaços per si creus que poden ser útils per a millorar el suport català del Whoosh (o altres projectes d'indexació). Stemmer: http://snowball.tartarus.org/algorithms/catalan/stemmer.html està implementat en un llenguatge anomenat Snowball, però bé, suposo que es pot passar a Python fàcilment. Stopwords: http://www.ranks.nl/stopwords/catalan.html http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list http://latel.upf.edu/morgana/altres/pub/ca_stop.htm Segmentació: Sobre la mala segmentació de la ela geminada, he resseguit una mica el codi del Whoosh, i el "problema" és el «tokenitzador» [1], implementen un algorisme propi, que no segueix l'Unicode UAX TR29. Atentament, Joan Montané [1] https://bitbucket.org/mchaput/whoosh/src/de2847553ed9a84dfc8681dda8f2d96cb35... [2] http://www.unicode.org/reports/tr29/