[Corrector] Noves funcionalitats de l'Hunspell

Joan Sala Soler joansala a gmail.com
dic ago 29 01:15:37 CEST 2007


Salutacions,

En/na Joan Montané ha escrit:
> Et comento entre línies,

[...]

> 
>     De fet, un cop s'hi ha afegit
>     l'aproximació fonètica el REP el que fan es nosa.
> 
> Segurament, però això deu ser depenent de la llengua.

M'imagino que sí. En el cas del català ho vaig estar provant i només 
aconseguia rebaixar la qualitat dels suggeriments. De tota manera és un 
bon començament, simple però efectiu, per a llengües que no disposin 
d'aproximació fonètica.

> 
>     L'Aspell fa servir tres típus de vocabularis: la llista de paraules, el
>     vocabulari personal i el diccionari de substitucions. Aquest últim es la
>     gràcia de la intel·ligència artificial de l'Aspell, és el que permet
>     que
>     el corrector aprengui de com l'usuari el fa servir.
> 
> El que vaig fer amb els barbarismes es afegir un segon diccionari de
> 
>     substitucions ja entrenat amb els barbarismes més freqüents (extret de
>     l'Abiword i entrenat amb els textos de la Viquipèdia). Aquest és també
>     el motiu de que hi hagi tan pocs barbarismes (uns 2600), si n'hi hagués
>     més interferirien amb l'aproximació fonètica.
> 
> 
>   Ho havia deduït, el que no entenc és perquè tens moltes entrades, 
> diguem-ne, 'doblades', vull dir: tens la forma masculina i femenina, i 
> fins i tot en singular i plural, d'algunes entrades. Es necessari? o 
> simplement és per si de cas? 

El diccionari de barbarismes s'hauria de polir molt :)

Si hi ha paraules "doblades" és perquè d'altra manera el corrector no 
les suggeriria. Per a algunes paraules cal posar-hi el femenins i els 
plurals, les conjugacions verbals o el que sigui; per altres no cal 
perquè el mateix Aspell ja les suggereix sense haver de ficar-les al 
diccionari.

És a dir, només vaig incloure a la llista els barbarismes que l'Aspell 
no em suggeria "per defecte" (sense el diccionari de substitucions) 
entre els deu primers resultats. La resta van quedar-se tal i com venien 
en el diccionari que en Jordi Mas/Softcatalà van crear per a l'Abiword 
(un cop eliminats els barbarismes menys freqüents).

>     El Hunspell té alguna cosa semblant? Si fos així es podria provar
>     d'implementar-ho. M'està costant de trobar documentació sobre el
>     funcionament del Hunspell (si existeix), si tens algun enllaç
>     interessant... ;)
> 
>   A mi també em costa. Malauradament no, no té res semblant. Sembla una 
> costum del programador de l'hunspelll Amb la biblioteca de separació 
> sil·làbica em passa el mateix, no està documentada. En un bug de l'OOo 
> li demanaven que expliques amb una mica de detall l'algorisme de 
> guionatge, i ell simplement va donar referències externes genèriques, 
> d'una implementació més 'simple', però no pas la mateixa que fa servir 
> ell. :-(

[...]

Què hi farem, suposo que a algun lloc hi deu haver una mica de 
documentació sobre el MySpell que també servirà. A veure què trobo.

Gràcies altre cop per tota la informació, hi faré un cop d'ull que m'han 
entrat ganes de jugar una mica amb l'Hunspell :)

Salut,

Joan Sala Soler



Més informació sobre la llista de correu Corrector