[Recursos] Possibles millores al Whoosh

Joan Montané joan a montane.cat
dij nov 21 13:26:58 CET 2013


Hola Jordi (i altres),

donant voltes al que vam parlar en la darrera reunió mensual, et passo uns
enllaços per si creus que poden ser útils per a millorar el suport català
del Whoosh (o altres projectes d'indexació).

Stemmer:
http://snowball.tartarus.org/algorithms/catalan/stemmer.html

està implementat en un llenguatge anomenat Snowball, però bé, suposo que es
pot passar a Python fàcilment.

Stopwords:
http://www.ranks.nl/stopwords/catalan.html
http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list
http://latel.upf.edu/morgana/altres/pub/ca_stop.htm

Segmentació:
Sobre la mala segmentació de la ela geminada, he resseguit una mica el codi
del Whoosh, i el "problema" és el «tokenitzador» [1], implementen un
algorisme propi, que no segueix l'Unicode UAX TR29.

Atentament,
Joan Montané

[1]
https://bitbucket.org/mchaput/whoosh/src/de2847553ed9a84dfc8681dda8f2d96cb35ca016/src/whoosh/analysis/tokenizers.py?at=2.5.x#cl-74
[2] http://www.unicode.org/reports/tr29/
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/recursos/attachments/20131121/eae70e11/attachment.html>


Més informació sobre la llista de correu Recursos