[Corrector] Problema al corrector web

Xavi Ivars xavi.ivars a gmail.com
div gen 4 14:56:41 CET 2013


He fet uns xicotets canvis a la tokenització, i sembla que funciona


   1. 204c204
   2. < $words[$i] = preg_split("/([\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]+)/",
   $words[$i], -1, PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces
   3. ---
   4. > $words[$i] = preg_split("/(\s+)/", $words[$i], -1,
   PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces
   5. 214c214
   6. <       preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]+/i", $words[
   $i][$j], $tmp); //get the word that is in the array slot $i
   7. ---
   8. >       preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]{1,20}/i",
   $words[$i][$j], $tmp); //get the word that is in the array slot $i


El primer canvi millora la tokenització, tenint en compte més caràcters a
l'hora de separar les paraules. El segon, elimina el límit de 20 caràcters
a analitzar.

Si ho podeu comprovar...



-- 
< Xavi Ivars >
< http://xavi.ivars.me >
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20130104/421334bf/attachment.html>


Més informació sobre la llista de correu Corrector