[Corrector] Noves funcionalitats de l'Hunspell
Joan Sala Soler
joansala a gmail.com
dic ago 29 01:15:37 CEST 2007
Salutacions,
En/na Joan Montané ha escrit:
> Et comento entre línies,
[...]
>
> De fet, un cop s'hi ha afegit
> l'aproximació fonètica el REP el que fan es nosa.
>
> Segurament, però això deu ser depenent de la llengua.
M'imagino que sí. En el cas del català ho vaig estar provant i només
aconseguia rebaixar la qualitat dels suggeriments. De tota manera és un
bon començament, simple però efectiu, per a llengües que no disposin
d'aproximació fonètica.
>
> L'Aspell fa servir tres típus de vocabularis: la llista de paraules, el
> vocabulari personal i el diccionari de substitucions. Aquest últim es la
> gràcia de la intel·ligència artificial de l'Aspell, és el que permet
> que
> el corrector aprengui de com l'usuari el fa servir.
>
> El que vaig fer amb els barbarismes es afegir un segon diccionari de
>
> substitucions ja entrenat amb els barbarismes més freqüents (extret de
> l'Abiword i entrenat amb els textos de la Viquipèdia). Aquest és també
> el motiu de que hi hagi tan pocs barbarismes (uns 2600), si n'hi hagués
> més interferirien amb l'aproximació fonètica.
>
>
> Ho havia deduït, el que no entenc és perquè tens moltes entrades,
> diguem-ne, 'doblades', vull dir: tens la forma masculina i femenina, i
> fins i tot en singular i plural, d'algunes entrades. Es necessari? o
> simplement és per si de cas?
El diccionari de barbarismes s'hauria de polir molt :)
Si hi ha paraules "doblades" és perquè d'altra manera el corrector no
les suggeriria. Per a algunes paraules cal posar-hi el femenins i els
plurals, les conjugacions verbals o el que sigui; per altres no cal
perquè el mateix Aspell ja les suggereix sense haver de ficar-les al
diccionari.
És a dir, només vaig incloure a la llista els barbarismes que l'Aspell
no em suggeria "per defecte" (sense el diccionari de substitucions)
entre els deu primers resultats. La resta van quedar-se tal i com venien
en el diccionari que en Jordi Mas/Softcatalà van crear per a l'Abiword
(un cop eliminats els barbarismes menys freqüents).
> El Hunspell té alguna cosa semblant? Si fos així es podria provar
> d'implementar-ho. M'està costant de trobar documentació sobre el
> funcionament del Hunspell (si existeix), si tens algun enllaç
> interessant... ;)
>
> A mi també em costa. Malauradament no, no té res semblant. Sembla una
> costum del programador de l'hunspelll Amb la biblioteca de separació
> sil·làbica em passa el mateix, no està documentada. En un bug de l'OOo
> li demanaven que expliques amb una mica de detall l'algorisme de
> guionatge, i ell simplement va donar referències externes genèriques,
> d'una implementació més 'simple', però no pas la mateixa que fa servir
> ell. :-(
[...]
Què hi farem, suposo que a algun lloc hi deu haver una mica de
documentació sobre el MySpell que també servirà. A veure què trobo.
Gràcies altre cop per tota la informació, hi faré un cop d'ull que m'han
entrat ganes de jugar una mica amb l'Hunspell :)
Salut,
Joan Sala Soler
Més informació sobre la llista de correu Corrector