
Hola Joan,
Hola Jordi (i altres),
donant voltes al que vam parlar en la darrera reunió mensual, et passo uns enllaços per si creus que poden ser útils per a millorar el suport català del Whoosh (o altres projectes d'indexació).
Stemmer: http://snowball.tartarus.org/algorithms/catalan/stemmer.html
està implementat en un llenguatge anomenat Snowball, però bé, suposo que es pot passar a Python fàcilment.
Stopwords: http://www.ranks.nl/stopwords/catalan.html http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list http://latel.upf.edu/morgana/altres/pub/ca_stop.htm
Segmentació: Sobre la mala segmentació de la ela geminada, he resseguit una mica el codi del Whoosh, i el "problema" és el «tokenitzador» [1], implementen un algorisme propi, que no segueix l'Unicode UAX TR29.
M'ho vaig mirar i estic totalment familiaritzat amb com funciona el Whoosh. El Whoosh agafa prestat el codi d'implementació dels algorisme del projecte NLTK[1]. Llavors, si es volgués per l'stemmer pel català jo suggeriria primer contribuir a NLTK i després treballar amb la comunitat Whoosh per fer un port del que s'ha fet al projecte NLTK. Ho trobo un tema molt interessant a la cruïlla entre tecnologia i llengua. A més penso que tindria un impacte molt positiu ja que beneficiaria a totes les aplicacions que usin aquestes biblioteques. Dit això, penso que és un projecte complement a part de l'esforç de memòries de traducció. De la mateixa manera, que solucionar els problemes que m'he trobat al locale català[2] està fora de l'abast d'aquest projecte. Llavors, si ens posem ara a millorar el Whoosh ens passarem com a mínim 3 mesos. Suggereixo acabar les memòries i després pensem quin és el següent projecte. Personalment, després de les memòries i el catalanitzador vull treballar amb el LanguageTool[3]. Per la qualcosa, si algú té interès li puc donar un cop de mà però vull acabar primer altres coses. Atentament, Jordi, [1] http://nltk.org/ [2] https://sourceware.org/bugzilla/show_bug.cgi?id=16148 [3] http://www.softcatala.org/wiki/Usuari:Jmas/Language_Tool_and_Microsoft_Offic... -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org