[Corrector] Problema al corrector web

Xavi Ivars xavi.ivars a gmail.com
div gen 4 14:07:41 CET 2013


El 4 de gener de 2013 11:26, Jaume Ortolà i Font <jaumeortola a gmail.com> ha
escrit:

> Crec que he trobat el problema. S'haurien de fer uns retocs en l'arxiu
> spell_checker.php (i spell_checker_valencia.php). El problema ve de la
> tokenització de paraules.
>
> Primer es fa la tokenització de paraules només amb el caràcter d'espai
> (línia 204):
> $words[$i] = preg_split("/(\s+)/", $words[$i], -1,
> PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces
>
> i després en la línia 215 es fa això:
> preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]{1,20}/i",
> $words[$i][$j], $tmp); //get the word that is in the array slot $i
> $tmpWord = $tmp[0]; //should only have one element in the array
> anyway, so it's just assign it to $tmpWord
>
> És a dir, el que hi ha darrere del punt en "sol.licitut" s'ignora i no
> arriba a analitzar-se mai. Tampoc no es detecta error en
> "Nacionalsindicalismezzz", perquè els 20 primers caràcters formen una
> paraula correcta.
>
> Hi ha diferents solucions. Si volem que els suggeriments siguen els
> esperats ("sol·licitud" per "sol.licitud" o "sol.licitut"), s'ha
> d'elaborar una mica més.
>

Gràcies Jaume,

He vist que el fitxer spell_checker està basat en la versió 2.8, i ja va
per la 3.3.

Intentaré veure si podem aprofitar alguna millora d'aquesta nova versió.

Toni, tu saps alguna cosa d'açò?
-- 
< Xavi Ivars >
< http://xavi.ivars.me >
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20130104/1dd17227/attachment.html>


Més informació sobre la llista de correu Corrector