[Corrector] problema amb paraules que contenen ela geminada

Joan Moratinos joan a jmoratinos.com
dic mar 14 20:52:53 CET 2012


Al 08/03/2012 00:35, En/na Toni Hermoso Pulido ha escrit:
> Al 27/02/12 00:52, En/na Ernest Adrogué ha escrit:
>> Hola Toni,
>>
>> 26-02-2012, 14:31 (+0100); Toni Hermoso Pulido escriu:
>>> n'estem informats, o n'estic a nivell de Mozilla. Com pots veure al
>>> mateix enllaç que passes, alguns dels informes els he enviat jo
>>> mateix.
>>> A nivell de Mozilla caldria fer unes quantes proves, com es pot veure a:
>>> https://bugzilla.mozilla.org/show_bug.cgi?id=257073
>>> Si no ho fem algú de nosaltres, ningú ho farà aviat.
>>> Malauradament jo no m'hi he pogut posar encara. Si hi vols ajudar i
>>> embrutar-te'n les mans, en parlem i endavant.
>>
>> Gràcies per la informació.
>>
>> De moment, només pretenc entendre la situació. Si puc fer alguna cosa
>> per ajudar ho intentaré fer, ja que és un problema que fa molt temps
>> que m'afecta i em molesta una mica. Segons què potser s'escapa de les
>> meves possibilitats, ja que no sóc programador.
>>
>
> Fantàstic Ernest. És molt important també tenir testers. Si vols, pots
> afegir-te als bugs que hi ha upstream per seguir-ho.
>
>> Si ho entenc, el problema és la separació de paraules i no hi ha una
>> manera estàndard de fer-ho, sinó que cada programa té el seu propi
>> sistema. És correcte? Si és així, no és una cosa que es pugui arreglar
>> a nivell de diccionari. S'hauria d'anar mirant programa per programa,
>> mirar com ho fa, i configurar-ho correctament (si es pot) o modificar
>> el programa perquè faci la separació de paraules de forma correcta.
>>
>
> Així és.
> Em miraré personalment ja el tema de Mozilla, perquè, com bé dius, ja fa
> massa temps que dura i crec que és assumible fer els canvis (tema apart
> és que els acceptin llavors).
>
>> Això és el que no tinc clar, per exemple, saps si la llibreria enchant
>> dóna informació al programa sobre com separar les paraules?

Mirant l'API d'Enchant, sembla que no té cap funció per dividir en mots. 
Segurament, és així perquè Enchant ofereix les prestacions comunes als 
diversos backends (aspell, hunspell, etc.) i aquests no tenen funcions 
per trossejar una línia en paraules.

Mozilla, com els altres clients dels correctors ortogràfics, fa servir 
un "iterador", que recorre la frase cercant-hi paraules. Normalment, 
aquests iteradors tenen un funcionament bastant naïf i consideren que un 
mot és una "illa" de caràcters marcats com alfabètics. En el cas del 
català, Mozilla, no considera que el punt volat sigui alfabètic i, per 
tant, considera els fragments anterior i posterior com dues paraules 
independents.

> Ho desconec. Algú caldria que hi investigués. Algú en aquesta llista?
>
> Salut,
>




Més informació sobre la llista de correu Corrector