[Corrector] Problema al corrector web
Jaume Ortolà i Font
jaumeortola a gmail.com
div gen 4 16:26:50 CET 2013
No ho he provat, però sembla que així funcionarà millor.
Queda la qüestió de la tokenització de paraules amb guionet (quan
convé que separar i quan no: quaranta-quatrè, Barcelona-València,
AP-7, etc.). Però no crec que valga la pena entrar-hi ací. Jo encara
no ho tinc del tot resolt en LanguageTool, perquè cal fer excepcions.
Salutacions,
Jaume Ortolà
El 4 de gener de 2013 14:56, Xavi Ivars <xavi.ivars a gmail.com> ha escrit:
> He fet uns xicotets canvis a la tokenització, i sembla que funciona
>
> 204c204
> < $words[$i] = preg_split("/([\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]+)/",
> $words[$i], -1, PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces
> ---
>> $words[$i] = preg_split("/(\s+)/", $words[$i], -1,
>> PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces
> 214c214
> < preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]+/i",
> $words[$i][$j], $tmp); //get the word that is in the array slot $i
> ---
>> preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]{1,20}/i",
>> $words[$i][$j], $tmp); //get the word that is in the array slot $i
>
>
> El primer canvi millora la tokenització, tenint en compte més caràcters a
> l'hora de separar les paraules. El segon, elimina el límit de 20 caràcters a
> analitzar.
>
> Si ho podeu comprovar...
>
> --
> < Xavi Ivars >
> < http://xavi.ivars.me >
>
> _______________________________________________
> Corrector mailing list
> Corrector a llistes.softcatala.org
> http://llistes.softcatala.org/mailman/listinfo/corrector
>
Més informació sobre la llista de correu Corrector