[Corrector] Problema al corrector web
Xavi Ivars
xavi.ivars a gmail.com
div gen 4 14:56:41 CET 2013
He fet uns xicotets canvis a la tokenització, i sembla que funciona
1. 204c204
2. < $words[$i] = preg_split("/([\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]+)/",
$words[$i], -1, PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces
3. ---
4. > $words[$i] = preg_split("/(\s+)/", $words[$i], -1,
PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces
5. 214c214
6. < preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]+/i", $words[
$i][$j], $tmp); //get the word that is in the array slot $i
7. ---
8. > preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]{1,20}/i",
$words[$i][$j], $tmp); //get the word that is in the array slot $i
El primer canvi millora la tokenització, tenint en compte més caràcters a
l'hora de separar les paraules. El segon, elimina el límit de 20 caràcters
a analitzar.
Si ho podeu comprovar...
--
< Xavi Ivars >
< http://xavi.ivars.me >
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20130104/421334bf/attachment.html>
Més informació sobre la llista de correu Corrector