
Hola Xavi,
En l'anglès no és tant important perquè no té accents però en les llengües romàniques això és un entrebanc important per l'ús del traductor des de mòbil.
Malgrat això sigui el camí descrit sigui correcte a llarg plaç, quina és l'opinió d'implementar Soundex[1], Metaphone[2] que són molt més senzills com a solució a curt plaç?
Ho dic perquè si Apertium té una una arquitectura prou modular es podrien fer implementar ràpidament com a pre-processadors del llenguatge origen i alguna cosa guanyaríem.
Segur que es pot fer, Apertium funciona tot amb pipelines d'Unix, i podem posar els moduls que vulguem sense problema. El que no sé és com tens idea d'implementar alguna d'eixes coses per a "accentuar" paraules mal accentuades. La única idea que se m'havia acudit a mi era integrar el corrector al formulari del traductor.
Com bé dius, la idea seria re-usar la implementació ja existent en algun corrector ortogràfic. Abans de començar, vull dir que el cas d'ús que intentem solucionar és evitar com a no reconegudes paraules sense accent (per exemple 'pero' en comptes de 'però') ja que en dispositius mòbils la gent tendeix a no possar-los. No intentem corregir altres errades ortogràfiques (proba, adresa, etc) o tipogràfiques. El cas d'ús que intentem solucionar està molt acotat. Jo suggeriria usar Hunspell[1], que és força popular [2], i que moltes aplicacions ja usen. Amb pipelines seria molt senzill, potser es pot fer amb línia de comandes o sinó de forma molt senzilla usant l'API[3]. La meva idea és: - Quan fem la petició al servidor[3], poguéssim incloure un paràmetre com ara "autocorrect=yes". Quan aquest paràmetre està actiu, el text a traduir es passa pel filtre del Hunspell abans d'enviar-lo al traductor. - Passem el text pel Hunspell, per les paraules que no trobi al diccionari cal demanar-li els suggeriments seguint aquesta lògica: si hi ha cap dels suggeriments que ignorant els accents és té els mateixos caràcters (camió vs camió, pero vs però), reemplacem el mot pel suggerit, sinó ignorem el suggeriment (adresa per exemple suggeriria adreça, adesa, etc). - Un cop el text corregit, s'envia al traductor (està entre mig). Si ho féssim, penso que seria interessa documentar-ho a la web d'Apertium, ja que potser interessant per altre gent treballant amb llengües amb accents. Com ho veus? Atentament, Jordi, [1] http://hunspell.sourceforge.net/ [2] http://en.wikipedia.org/wiki/Hunspell#Uses http://switch.dl.sourceforge.net/project/hunspell/Hunspell/Documentation/hun... [3] http://www.softcatala.org/apertium/json/translate -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org Play on-line brain teasers at http://www.gbrainy.com