[Desenvolupament] [Forum] Client per l'Android del Traductor de Softcatalà

Jordi Mas jmas a softcatala.org
dis ago 20 14:30:43 CEST 2011


Hola Xavi,

>     En l'anglès no és tant important perquè no té accents però en les
>     llengües romàniques això és un entrebanc important per l'ús del
>     traductor des de mòbil.
> 
>     Malgrat això sigui el camí descrit sigui correcte a llarg plaç,
>     quina és l'opinió d'implementar Soundex[1], Metaphone[2] que són
>     molt més senzills com a solució a curt plaç?
> 
>     Ho dic perquè si Apertium té una una arquitectura prou modular es
>     podrien fer implementar ràpidament com a pre-processadors del
>     llenguatge origen i alguna cosa guanyaríem.
> 
> 
> Segur que es pot fer, Apertium funciona tot amb pipelines d'Unix, i 
> podem posar els moduls que vulguem sense problema. El que no sé és com 
> tens idea d'implementar alguna d'eixes coses per a "accentuar" paraules 
> mal accentuades. La única idea que se m'havia acudit a mi era integrar 
> el corrector al formulari del traductor.

Com bé dius, la idea seria re-usar la implementació ja existent en algun 
corrector ortogràfic.

Abans de començar, vull dir que el cas d'ús que intentem solucionar és 
evitar com a no reconegudes paraules sense accent (per exemple 'pero' en 
comptes de 'però') ja que en dispositius mòbils la gent tendeix a no 
possar-los. No intentem corregir altres errades ortogràfiques (proba, 
adresa, etc) o tipogràfiques. El cas d'ús que intentem solucionar està 
molt acotat.

Jo suggeriria usar Hunspell[1], que és força popular [2], i que moltes 
aplicacions ja usen.

Amb pipelines seria molt senzill, potser es pot fer amb línia de 
comandes o sinó de forma molt senzilla usant l'API[3].

La meva idea és:

- Quan fem la petició al servidor[3], poguéssim incloure un paràmetre 
com ara "autocorrect=yes". Quan aquest paràmetre està actiu, el text a 
traduir es passa pel filtre del Hunspell abans d'enviar-lo al traductor.

- Passem el text pel Hunspell, per les paraules que no trobi al 
diccionari cal demanar-li els suggeriments seguint aquesta lògica: si hi 
ha cap dels suggeriments que ignorant els accents és té els mateixos 
caràcters (camió vs camió, pero vs però), reemplacem el mot pel 
suggerit, sinó ignorem el suggeriment (adresa per exemple suggeriria 
adreça, adesa, etc).

- Un cop el text corregit, s'envia al traductor (està entre mig).

Si ho féssim, penso que seria interessa documentar-ho a la web 
d'Apertium, ja que potser interessant per altre gent treballant amb 
llengües amb accents.

Com ho veus?

Atentament,

Jordi,

[1] http://hunspell.sourceforge.net/
[2] http://en.wikipedia.org/wiki/Hunspell#Uses
http://switch.dl.sourceforge.net/project/hunspell/Hunspell/Documentation/hunspell3.pdf
[3] http://www.softcatala.org/apertium/json/translate

-- 
Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/
Planet Softcatalà -> http://planeta.softcatala.org
Play on-line brain teasers at http://www.gbrainy.com



Més informació sobre la llista de correu Desenvolupament