[Corrector] Problema al corrector web

Jaume Ortolà i Font jaumeortola a gmail.com
div gen 4 11:26:43 CET 2013


Crec que he trobat el problema. S'haurien de fer uns retocs en l'arxiu
spell_checker.php (i spell_checker_valencia.php). El problema ve de la
tokenització de paraules.

Primer es fa la tokenització de paraules només amb el caràcter d'espai
(línia 204):
$words[$i] = preg_split("/(\s+)/", $words[$i], -1,
PREG_SPLIT_DELIM_CAPTURE); //then split it on the spaces

i després en la línia 215 es fa això:
preg_match("/[^\s\,\.\"\:\;\«\»\-\=\+\?\!\(\)\/]{1,20}/i",
$words[$i][$j], $tmp); //get the word that is in the array slot $i
$tmpWord = $tmp[0]; //should only have one element in the array
anyway, so it's just assign it to $tmpWord

És a dir, el que hi ha darrere del punt en "sol.licitut" s'ignora i no
arriba a analitzar-se mai. Tampoc no es detecta error en
"Nacionalsindicalismezzz", perquè els 20 primers caràcters formen una
paraula correcta.

Hi ha diferents solucions. Si volem que els suggeriments siguen els
esperats ("sol·licitud" per "sol.licitud" o "sol.licitut"), s'ha
d'elaborar una mica més.

Salutacions,
Jaume Ortolà




El 4 de gener de 2013 10:04, Jordi Mas <jmas a softcatala.org> ha escrit:
>
> En/na Xavi Ivars ha escrit:
>
>> Hola,
>>
>> Degut a una errada transmesa al correu del traductor (que no era del traductor, sinó del corrector), he pogut comprovar que quan l'ela geminada s'escriu malament (amb un punt en lloc d'un punt volat), no només accepta la paraula si és correcta, sinó també si no ho és. Només passa a la web: els paquets d'Xspell van bé (almenys l'aspell des de la línia d'ordres).
>>
>> "sol.licitut" no ho marca com a error, quan segons el meu punt de vista hauria de marcar com a mínim "licitut" com a incorrecte.
>>
>> No sé si val la pena corregir-ho, o ho deixem córrer fins que implementem el nou corrector basat en el LanguageTool a la web.
>
>
> Hola Xavi,
>
> Quin és l'esforç per corregir-ho? Sabem quin pot ser el problema?
>
> Quan pensem que tindrem el LanguageTool desplegat?
>
> Un parell de coses a tenir en compte: considerem que el corrector web al Desembre, que és un mes fluix, va tenir 500.000 visites i per altre banda estem donant suport al grup de http://www.l·l.cat/ i com a part d'aquest esforç hi ha la identificació i solució de problemes relacionats.
>
> Atentament,
>
> Jordi,
>
> --
> Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/
> Planet Softcatalà -> http://planeta.softcatala.org
> _______________________________________________
> Corrector mailing list
> Corrector a llistes.softcatala.org
> http://llistes.softcatala.org/mailman/listinfo/corrector
-------------- part següent --------------
A non-text attachment was scrubbed...
Name: spell_checker.php
Type: application/x-httpd-php
Size: 17997 bytes
Desc: no disponible
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20130104/897ffe17/attachment.bin>


Més informació sobre la llista de correu Corrector