<div dir="ltr"><div>Hola Jordi (i altres),<br><br></div><div>donant voltes al que vam parlar en la darrera reunió mensual, et passo uns enllaços per si creus que poden ser útils per a millorar el suport català del Whoosh (o altres projectes d'indexació).<br>
<br></div><div>Stemmer:<br><a href="http://snowball.tartarus.org/algorithms/catalan/stemmer.html">http://snowball.tartarus.org/algorithms/catalan/stemmer.html</a><br><br></div><div>està implementat en un llenguatge anomenat Snowball, però bé, suposo que es pot passar a Python fàcilment.<br>
</div><div><br></div><div>Stopwords:<br><a href="http://www.ranks.nl/stopwords/catalan.html">http://www.ranks.nl/stopwords/catalan.html</a><br><a href="http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list">http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list</a><br>
<a href="http://latel.upf.edu/morgana/altres/pub/ca_stop.htm">http://latel.upf.edu/morgana/altres/pub/ca_stop.htm</a><br></div><div><br></div><div>Segmentació:<br></div><div>Sobre la mala segmentació de la ela geminada, he resseguit una mica el codi del Whoosh, i el "problema" és el «tokenitzador» [1], implementen un algorisme propi, que no segueix l'Unicode UAX TR29.<br>
<br></div><div>Atentament,<br>Joan Montané<br></div><div><br>[1] <a href="https://bitbucket.org/mchaput/whoosh/src/de2847553ed9a84dfc8681dda8f2d96cb35ca016/src/whoosh/analysis/tokenizers.py?at=2.5.x#cl-74">https://bitbucket.org/mchaput/whoosh/src/de2847553ed9a84dfc8681dda8f2d96cb35ca016/src/whoosh/analysis/tokenizers.py?at=2.5.x#cl-74</a><br>
[2] <a href="http://www.unicode.org/reports/tr29/">http://www.unicode.org/reports/tr29/</a><br></div><div><br></div></div>