[Recursos] Possibles millores al Whoosh
Joan Montané
joan a montane.cat
dij nov 21 13:26:58 CET 2013
Hola Jordi (i altres),
donant voltes al que vam parlar en la darrera reunió mensual, et passo uns
enllaços per si creus que poden ser útils per a millorar el suport català
del Whoosh (o altres projectes d'indexació).
Stemmer:
http://snowball.tartarus.org/algorithms/catalan/stemmer.html
està implementat en un llenguatge anomenat Snowball, però bé, suposo que es
pot passar a Python fàcilment.
Stopwords:
http://www.ranks.nl/stopwords/catalan.html
http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list
http://latel.upf.edu/morgana/altres/pub/ca_stop.htm
Segmentació:
Sobre la mala segmentació de la ela geminada, he resseguit una mica el codi
del Whoosh, i el "problema" és el «tokenitzador» [1], implementen un
algorisme propi, que no segueix l'Unicode UAX TR29.
Atentament,
Joan Montané
[1]
https://bitbucket.org/mchaput/whoosh/src/de2847553ed9a84dfc8681dda8f2d96cb35ca016/src/whoosh/analysis/tokenizers.py?at=2.5.x#cl-74
[2] http://www.unicode.org/reports/tr29/
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/recursos/attachments/20131121/eae70e11/attachment.html>
Més informació sobre la llista de correu Recursos