[Corrector] Noves funcionalitats de l'Hunspell

Joan Montané jmontane a gmail.com
dim ago 28 21:54:06 CEST 2007


Et comento entre línies,

El 28/08/07, Joan Sala Soler <joansala a gmail.com> ha escrit:
>
> Es que l'Aspell es de llarg insuperable :)


I tant!

Això que comentes és perquè el diccionari que vaig enviar de l'Aspell no
> fa servir les ordres REP per a les substitucions. Els REP només són un
> substitut barat de l'aproximació fonètica.


Cert.

De fet, un cop s'hi ha afegit
> l'aproximació fonètica el REP el que fan es nosa.


Segurament, però això deu ser depenent de la llengua.

L'Aspell fa servir tres típus de vocabularis: la llista de paraules, el
> vocabulari personal i el diccionari de substitucions. Aquest últim es la
> gràcia de la intel·ligència artificial de l'Aspell, és el que permet que
> el corrector aprengui de com l'usuari el fa servir.

El que vaig fer amb els barbarismes es afegir un segon diccionari de

> substitucions ja entrenat amb els barbarismes més freqüents (extret de
> l'Abiword i entrenat amb els textos de la Viquipèdia). Aquest és també
> el motiu de que hi hagi tan pocs barbarismes (uns 2600), si n'hi hagués
> més interferirien amb l'aproximació fonètica.


  Ho havia deduït, el que no entenc és perquè tens moltes entrades,
diguem-ne, 'doblades', vull dir: tens la forma masculina i femenina, i fins
i tot en singular i plural, d'algunes entrades. Es necessari? o simplement
és per si de cas?

També es podria utilitzar per a corregir neologismes (la Terminologia
> Oberta del Termcat és una bona base).
>
> El Hunspell té alguna cosa semblant? Si fos així es podria provar
> d'implementar-ho. M'està costant de trobar documentació sobre el
> funcionament del Hunspell (si existeix), si tens algun enllaç
> interessant... ;)


  A mi també em costa. Malauradament no, no té res semblant. Sembla una
costum del programador de l'hunspelll Amb la biblioteca de separació
sil·làbica em passa el mateix, no està documentada. En un bug de l'OOo li
demanaven que expliques amb una mica de detall l'algorisme de guionatge, i
ell simplement va donar referències externes genèriques, d'una implementació
més 'simple', però no pas la mateixa que fa servir ell. :-(

  Sembla que l'hunspell de moment només té els MAP i els REP, que com bé
dius, són limitats. De fet, l'hunspell treballa més de cara als errors
tipogràfics, bàsicament busca suggeriments seguint aquest ordre (extret del
fitxer suggestmgr.cxx):

// suggestions for an uppercase word (html -> HTML)
// perhaps we made a typical fault of spelling
// perhaps we made chose the wrong char from a related set
// did we swap the order of chars by mistake
// did we swap the order of non adjacent chars by mistake
// did we just hit the wrong key in place of a good char (case and keyboard)
// did we add a char that should not be there
// only suggest compound words when no other suggestion
// did we forgot a char
// did we move a char
// did we just hit the wrong key in place of a good char
// did we double two characters
// perhaps we forgot to hit space and two words ran together
// generate a set of suggestions for very poorly spelled words

  Pots veure que se centra, sobretot, en els errors tipogràfics, cosa que ja
m'agrada (jo en faig molts), però tinc la sospita que (en general) la
majoria d'errors en escriure en català no són, precisament, tipogràfics. Més
aviat, són castellanismes i errors pròpiament ortogràfics, produïts per una
manca d'escolarització (i de lectura) en català a un percentatge de població
molt important. Conec molta gent , mons pares mateix,  que escriuen el
català gairebé tal com sona, perquè no van aprendre mai català a l'escola.
En aquest casos, l'aspell és, simplement, perfecte. L'hunspell és,
simplement, insuficient.
La solució ideal seria un corrector gramatical, però, ai las, seguirem
esperant. :-(

  Com et deia, no he trobat cap documentació que expliqui les funcionalitats
de l'hunspell. Ni tan sols la pàgina del lloc web explica les noves
funcionalitats.
  Bé, només he trobat actualitzats i útils els exemples que acompanyen el
programa i, obviàment, el codi font del mateix, crec que el fitxer més útil,
de cara a fer-se una idea del funcionament de l'hunspell és el
suggestmgr.cxx del codi font.


Atentament,
>
> Joan Sala Soler
> _______________________________________________
> Corrector mailing list
> Corrector a llistes.softcatala.org
> http://llistes.softcatala.org/mailman/listinfo/corrector



Apa, per avui crec que ja em xerrat prou :-D, qualsevol idea que tinguis al
respecte, ja saps on trobar-me, i gràcies altre cop per les millores de
l'aspell.

Atentament,

Joan Montané
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20070828/2c1c65ce/attachment.html>


Més informació sobre la llista de correu Corrector