[Corrector] Problema al corrector web
Toni Hermoso Pulido
toniher a softcatala.cat
div gen 4 14:15:01 CET 2013
Al 04/01/13 14:07, En/na Xavi Ivars ha escrit:
>
>
> El 4 de gener de 2013 11:26, Jaume Ortolà i Font <jaumeortola a gmail.com
> <mailto:jaumeortola a gmail.com>> ha escrit:
>
> Crec que he trobat el problema. S'haurien de fer uns retocs en l'arxiu
> spell_checker.php (i spell_checker_valencia.php). El problema ve de la
> tokenització de paraules.
>
> Primer es fa la tokenització de paraules només amb el caràcter d'espai
> (línia 204):
> $words[$i] = preg_split("/(\s+)/", $words[$i], -1,
> PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces
>
> i després en la línia 215 es fa això:
> preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]{1,20}/i",
> $words[$i][$j], $tmp); //get the word that is in the array slot $i
> $tmpWord = $tmp[0]; //should only have one element in the array
> anyway, so it's just assign it to $tmpWord
>
> És a dir, el que hi ha darrere del punt en "sol.licitut" s'ignora i no
> arriba a analitzar-se mai. Tampoc no es detecta error en
> "Nacionalsindicalismezzz", perquè els 20 primers caràcters formen una
> paraula correcta.
>
> Hi ha diferents solucions. Si volem que els suggeriments siguen els
> esperats ("sol·licitud" per "sol.licitud" o "sol.licitut"), s'ha
> d'elaborar una mica més.
>
>
> Gràcies Jaume,
>
> He vist que el fitxer spell_checker està basat en la versió 2.8, i ja va
> per la 3.3.
>
> Intentaré veure si podem aprofitar alguna millora d'aquesta nova versió.
>
> Toni, tu saps alguna cosa d'açò?
>
Hola Xavi,
fa anys m'ho vaig mirar, i em sembla que la 3.0 és una completa
reescriptura.
Segurament no ho vaig actualitzar perquè canviava una mica força i
segurament no vaig voler-hi dedicar molt temps a adaptar tot el que teníem.
Si t'ho vols mirar i vols un cop de mà, em dius.
Salut,
--
Toni Hermoso Pulido
http://www.cau.cat
Més informació sobre la llista de correu Corrector