[Recursos] Possibles millores al Whoosh

Jordi Mas jmas a softcatala.org
div nov 22 08:42:44 CET 2013


Hola Joan,

> Hola Jordi (i altres),
>
> donant voltes al que vam parlar en la darrera reunió mensual, et passo
> uns enllaços per si creus que poden ser útils per a millorar el suport
> català del Whoosh (o altres projectes d'indexació).
>
> Stemmer:
> http://snowball.tartarus.org/algorithms/catalan/stemmer.html
>
> està implementat en un llenguatge anomenat Snowball, però bé, suposo que
> es pot passar a Python fàcilment.
>
> Stopwords:
> http://www.ranks.nl/stopwords/catalan.html
> http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list
> http://latel.upf.edu/morgana/altres/pub/ca_stop.htm
>
> Segmentació:
> Sobre la mala segmentació de la ela geminada, he resseguit una mica el
> codi del Whoosh, i el "problema" és el «tokenitzador» [1], implementen
> un algorisme propi, que no segueix l'Unicode UAX TR29.

M'ho vaig mirar i estic totalment familiaritzat amb com funciona el 
Whoosh. El Whoosh agafa prestat el codi d'implementació dels algorisme 
del projecte NLTK[1].

Llavors, si es volgués per l'stemmer pel català jo suggeriria primer 
contribuir a NLTK i després treballar amb la comunitat Whoosh per fer un 
port del que s'ha fet al projecte NLTK.

Ho trobo un tema molt interessant a la cruïlla entre tecnologia i 
llengua. A més penso que tindria un impacte molt positiu ja que 
beneficiaria a totes les aplicacions que usin aquestes biblioteques.

Dit això, penso que és un projecte complement a part de l'esforç de 
memòries de traducció. De la mateixa manera, que solucionar els 
problemes que m'he trobat al locale català[2] està fora de l'abast 
d'aquest projecte.

Llavors, si ens posem ara a millorar el Whoosh ens passarem com a mínim 
3 mesos. Suggereixo acabar les memòries i després pensem quin és el 
següent projecte. Personalment, després de les memòries i el 
catalanitzador vull treballar amb el LanguageTool[3]. Per la qualcosa, 
si algú té interès li puc donar un cop de mà però vull acabar primer 
altres coses.

Atentament,

Jordi,

[1] http://nltk.org/
[2] https://sourceware.org/bugzilla/show_bug.cgi?id=16148
[3] 
http://www.softcatala.org/wiki/Usuari:Jmas/Language_Tool_and_Microsoft_Office
-- 
Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/
Planet Softcatalà -> http://planeta.softcatala.org


Més informació sobre la llista de correu Recursos