Et comento entre línies,<br><br><div><span class="gmail_quote">El 28/08/07, <b class="gmail_sendername">Joan Sala Soler</b> <<a href="mailto:joansala@gmail.com">joansala@gmail.com</a>> ha escrit:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Es que l'Aspell es de llarg insuperable :)</blockquote><div><br>I tant!  <br></div><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Això que comentes és perquè el diccionari que vaig enviar de l'Aspell no
<br>fa servir les ordres REP per a les substitucions. Els REP només són un<br>substitut barat de l'aproximació fonètica.</blockquote><div><br>Cert. <br></div><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
 De fet, un cop s'hi ha afegit<br>l'aproximació fonètica el REP el que fan es nosa.</blockquote><div><br>Segurament, però això deu ser depenent de la llengua. <br></div><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
L'Aspell fa servir tres típus de vocabularis: la llista de paraules, el<br>vocabulari personal i el diccionari de substitucions. Aquest últim es la<br>gràcia de la intel·ligència artificial de l'Aspell, és el que permet que
<br>el corrector aprengui de com l'usuari el fa servir.</blockquote>El que vaig fer amb els barbarismes es afegir un segon diccionari de<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
substitucions ja entrenat amb els barbarismes més freqüents (extret de<br>l'Abiword i entrenat amb els textos de la Viquipèdia). Aquest és també<br>el motiu de que hi hagi tan pocs barbarismes (uns 2600), si n'hi hagués
<br>més interferirien amb l'aproximació fonètica.</blockquote><div><br>  Ho havia deduït, el que no entenc és perquè tens moltes entrades,
diguem-ne, 'doblades', vull dir: tens la forma masculina i femenina, i
fins i tot en singular i plural, d'algunes entrades. Es necessari? o
simplement és per si de cas? </div><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">També es podria utilitzar per a corregir neologismes (la Terminologia
<br>Oberta del Termcat és una bona base).<br><br>El Hunspell té alguna cosa semblant? Si fos així es podria provar<br>d'implementar-ho. M'està costant de trobar documentació sobre el<br>funcionament del Hunspell (si existeix), si tens algun enllaç
<br>interessant... ;)</blockquote><div><br>  A mi també em costa. Malauradament no, no té res semblant. Sembla una costum del programador de l'hunspelll Amb la biblioteca de separació sil·làbica em passa el mateix, no està documentada. En un bug de l'OOo li demanaven que expliques amb una mica de detall l'algorisme de guionatge, i ell simplement va donar referències externes genèriques, d'una implementació més 'simple', però no pas la mateixa que fa servir ell. :-(
<br><br>  Sembla que l'hunspell de moment només té els MAP i els REP, que com bé dius, són limitats. De fet, l'hunspell treballa més de cara als errors tipogràfics, bàsicament busca suggeriments seguint aquest ordre (extret del fitxer 
suggestmgr.cxx):<br><br>// suggestions for an uppercase word (html -> HTML)<br> // perhaps we made a typical fault of spelling<br> // perhaps we made chose the wrong char from a related set<br> // did we swap the order of chars by mistake
<br> // did we swap the order of non adjacent chars by mistake<br> // did we just hit the wrong key in place of a good char (case and keyboard)<br> // did we add a char that should not be there<br> // only suggest compound words when no other suggestion
<br> // did we forgot a char<br> // did we move a char<br> // did we just hit the wrong key in place of a good char<br> // did we double two characters<br>// perhaps we forgot to hit space and two words ran together <br></div>
// generate a set of suggestions for very poorly spelled words<br><br>  Pots veure que se centra, sobretot, en els errors tipogràfics, cosa que ja m'agrada (jo en faig molts), però tinc la sospita que (en general) la majoria d'errors en escriure en català no són, precisament, tipogràfics. Més aviat, són castellanismes i errors pròpiament ortogràfics, produïts per una manca d'escolarització (i de lectura) en català a un percentatge de població molt important. Conec molta gent , mons pares mateix,  que escriuen el català gairebé tal com sona, perquè no van aprendre mai català a l'escola. En aquest casos, l'aspell és, simplement, perfecte. L'hunspell és, simplement, insuficient.
<br>La solució ideal seria un corrector gramatical, però, ai las, seguirem esperant. :-(<br><br>  Com et deia, no he trobat cap documentació que expliqui les funcionalitats de l'hunspell. Ni tan sols la pàgina del lloc web explica les noves funcionalitats. 
<br>  Bé, només he trobat actualitzats i útils els exemples que acompanyen el programa i, obviàment, el codi font del mateix, crec que el fitxer més útil, de cara a fer-se una idea del funcionament de l'hunspell és el 
suggestmgr.cxx del codi font.<br><br><br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Atentament,<br><br>Joan Sala Soler<br>_______________________________________________
<br>Corrector mailing list<br><a href="mailto:Corrector@llistes.softcatala.org">Corrector@llistes.softcatala.org</a><br><a href="http://llistes.softcatala.org/mailman/listinfo/corrector">http://llistes.softcatala.org/mailman/listinfo/corrector
</a></blockquote><div><br><br>Apa, per avui crec que ja em xerrat prou :-D, qualsevol idea que tinguis al respecte, ja saps on trobar-me, i gràcies altre cop per les millores de l'aspell.<br><br>Atentament, <br><br>Joan Montané 
<br></div><br></div><br>