[Recursos] Possibles millores al Whoosh
Jordi Mas
jmas a softcatala.org
div nov 22 08:42:44 CET 2013
Hola Joan,
> Hola Jordi (i altres),
>
> donant voltes al que vam parlar en la darrera reunió mensual, et passo
> uns enllaços per si creus que poden ser útils per a millorar el suport
> català del Whoosh (o altres projectes d'indexació).
>
> Stemmer:
> http://snowball.tartarus.org/algorithms/catalan/stemmer.html
>
> està implementat en un llenguatge anomenat Snowball, però bé, suposo que
> es pot passar a Python fàcilment.
>
> Stopwords:
> http://www.ranks.nl/stopwords/catalan.html
> http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list
> http://latel.upf.edu/morgana/altres/pub/ca_stop.htm
>
> Segmentació:
> Sobre la mala segmentació de la ela geminada, he resseguit una mica el
> codi del Whoosh, i el "problema" és el «tokenitzador» [1], implementen
> un algorisme propi, que no segueix l'Unicode UAX TR29.
M'ho vaig mirar i estic totalment familiaritzat amb com funciona el
Whoosh. El Whoosh agafa prestat el codi d'implementació dels algorisme
del projecte NLTK[1].
Llavors, si es volgués per l'stemmer pel català jo suggeriria primer
contribuir a NLTK i després treballar amb la comunitat Whoosh per fer un
port del que s'ha fet al projecte NLTK.
Ho trobo un tema molt interessant a la cruïlla entre tecnologia i
llengua. A més penso que tindria un impacte molt positiu ja que
beneficiaria a totes les aplicacions que usin aquestes biblioteques.
Dit això, penso que és un projecte complement a part de l'esforç de
memòries de traducció. De la mateixa manera, que solucionar els
problemes que m'he trobat al locale català[2] està fora de l'abast
d'aquest projecte.
Llavors, si ens posem ara a millorar el Whoosh ens passarem com a mínim
3 mesos. Suggereixo acabar les memòries i després pensem quin és el
següent projecte. Personalment, després de les memòries i el
catalanitzador vull treballar amb el LanguageTool[3]. Per la qualcosa,
si algú té interès li puc donar un cop de mà però vull acabar primer
altres coses.
Atentament,
Jordi,
[1] http://nltk.org/
[2] https://sourceware.org/bugzilla/show_bug.cgi?id=16148
[3]
http://www.softcatala.org/wiki/Usuari:Jmas/Language_Tool_and_Microsoft_Office
--
Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/
Planet Softcatalà -> http://planeta.softcatala.org
Més informació sobre la llista de correu Recursos