Possibles millores al Whoosh

Hola Jordi (i altres), donant voltes al que vam parlar en la darrera reunió mensual, et passo uns enllaços per si creus que poden ser útils per a millorar el suport català del Whoosh (o altres projectes d'indexació). Stemmer: http://snowball.tartarus.org/algorithms/catalan/stemmer.html està implementat en un llenguatge anomenat Snowball, però bé, suposo que es pot passar a Python fàcilment. Stopwords: http://www.ranks.nl/stopwords/catalan.html http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list http://latel.upf.edu/morgana/altres/pub/ca_stop.htm Segmentació: Sobre la mala segmentació de la ela geminada, he resseguit una mica el codi del Whoosh, i el "problema" és el «tokenitzador» [1], implementen un algorisme propi, que no segueix l'Unicode UAX TR29. Atentament, Joan Montané [1] https://bitbucket.org/mchaput/whoosh/src/de2847553ed9a84dfc8681dda8f2d96cb35... [2] http://www.unicode.org/reports/tr29/

Hola Joan,
Hola Jordi (i altres),
donant voltes al que vam parlar en la darrera reunió mensual, et passo uns enllaços per si creus que poden ser útils per a millorar el suport català del Whoosh (o altres projectes d'indexació).
Stemmer: http://snowball.tartarus.org/algorithms/catalan/stemmer.html
està implementat en un llenguatge anomenat Snowball, però bé, suposo que es pot passar a Python fàcilment.
Stopwords: http://www.ranks.nl/stopwords/catalan.html http://meta.wikimedia.org/wiki/Stop_word_list/google_stop_word_list http://latel.upf.edu/morgana/altres/pub/ca_stop.htm
Segmentació: Sobre la mala segmentació de la ela geminada, he resseguit una mica el codi del Whoosh, i el "problema" és el «tokenitzador» [1], implementen un algorisme propi, que no segueix l'Unicode UAX TR29.
M'ho vaig mirar i estic totalment familiaritzat amb com funciona el Whoosh. El Whoosh agafa prestat el codi d'implementació dels algorisme del projecte NLTK[1]. Llavors, si es volgués per l'stemmer pel català jo suggeriria primer contribuir a NLTK i després treballar amb la comunitat Whoosh per fer un port del que s'ha fet al projecte NLTK. Ho trobo un tema molt interessant a la cruïlla entre tecnologia i llengua. A més penso que tindria un impacte molt positiu ja que beneficiaria a totes les aplicacions que usin aquestes biblioteques. Dit això, penso que és un projecte complement a part de l'esforç de memòries de traducció. De la mateixa manera, que solucionar els problemes que m'he trobat al locale català[2] està fora de l'abast d'aquest projecte. Llavors, si ens posem ara a millorar el Whoosh ens passarem com a mínim 3 mesos. Suggereixo acabar les memòries i després pensem quin és el següent projecte. Personalment, després de les memòries i el catalanitzador vull treballar amb el LanguageTool[3]. Per la qualcosa, si algú té interès li puc donar un cop de mà però vull acabar primer altres coses. Atentament, Jordi, [1] http://nltk.org/ [2] https://sourceware.org/bugzilla/show_bug.cgi?id=16148 [3] http://www.softcatala.org/wiki/Usuari:Jmas/Language_Tool_and_Microsoft_Offic... -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org

El dia 22 de novembre de 2013 8.42, Jordi Mas <jmas@softcatala.org> ha escrit:
Ho trobo un tema molt interessant a la cruïlla entre tecnologia i llengua. A més penso que tindria un impacte molt positiu ja que beneficiaria a totes les aplicacions que usin aquestes biblioteques.
Sí, aquesta és la idea. Millorar les biblioteques per a solucionar els projectes que les usen. Dit això, penso que és un projecte complement a part de l'esforç de
memòries de traducció. De la mateixa manera, que solucionar els problemes que m'he trobat al locale català[2] està fora de l'abast d'aquest projecte.
Sí, però igual que has rodejat el problema amb el separador de milers al web de recursos, hauríem de rodejar el problema amb el punt volat, o solucionar-ho a upstream.
Llavors, si ens posem ara a millorar el Whoosh ens passarem com a mínim 3 mesos. Suggereixo acabar les memòries i després pensem quin és el següent projecte. Personalment, després de les memòries i el catalanitzador vull treballar amb el LanguageTool[3]. Per la qualcosa, si algú té interès li puc donar un cop de mà però vull acabar primer altres coses.
Em sembla coherent, un bon pla de treball, :) Joan Montané
participants (2)
-
Joan Montané
-
Jordi Mas