[Corrector] Dubte diccionari

Jaume Ortolà i Font jaumeortola a gmail.com
div mar 15 09:04:54 CET 2013


Gabriel,

Sí, es tracta d'un arxiu que conté totes les paraules derivades
(plurals, femenins, verbs conjugats).

No sé com el faràs servir i no sé si t'has plantejat les dificultats
que poden sorgir.

Un diccionari bàsic (sense paraules derivades) pot tenir de l'ordre de
70.000 entrades. Una llista amb totes les paraules derivades té cap a
700.000 formes. Per a fer-hi consultes de manera eficient, cal
compilar la llista d'alguna manera.

Una altre possible problema és la tokenització (la divisió de les
frases en elements més bàsics, "tokens"). Segons com es faça la
tokenització, la llista ha de ser d'una manera o una altra. El
corrector Hunspell que fem servir en LibreOffice no divideix les
paraules unides per guionets i apòstrofs (articles, pronoms, etc.).
Això vol dir que "d'emportar-nos-el" és un sol token i no quatre. En
aquest cas, la llista de 700.000 formes es multiplica (ara no sé
exactament per quant, per 10 o per 20...). L'arxiu resultant pesa més
de 100 megues.

¿Saps, doncs, com funciona el teu motor de correcció i quin tipus de
llista de paraules necessita?

Com a opció alternativa, si en el teu sistema pots integrar una
aplicació Java, podries posar-hi el corrector LanguageTool:
http://languagetool.org/ca/

A més de correcció ortogràfica, també fa correcció gramatical. És el
corrector en què estem treballant ara, i que aviat posarem en la
pàgina web de Softcatalà.

Salutacions,
Jaume Ortolà




El 14 de març de 2013 20.42, Gabriel Plana <gabriel4 a gapla.cat> ha escrit:
> Moltíssimes gràcies, Jaume.
> Per descomptat que puc esperar uns dies. Només una cosa: aquesta llista tindrà les paraules amb totes les formes (plurals, femenins, etc...) ?
> Perquè ara mateix ja disposo d'un fitxer de text amb paraules tipus "diccionari clàssic" però no hi ha cap plural ni femení...
>
> Salut!
>
> Gabriel Plana
>
> -----Mensaje original-----
> De: corrector-bounces a llistes.softcatala.org [mailto:corrector-bounces a llistes.softcatala.org] En nombre de Jaume Ortolà i Font
> Enviado el: jueves, 14 de marzo de 2013 18:29
> Para: Desenvolupament de correctors ortogràfics i gramaticals
> Asunto: Re: [Corrector] Dubte diccionari
>
> Gabriel,
>
> Sí que disposem d'aquesta llista de paraules. De fet jo ara estic treballant amb arxius d'aquest estil. Estic comparant diferents diccionaris per a corregir-los i completar-los. Si pots esperar uns pocs dies (menys d'una setmana), et passaré la llista més actualitzada i amb menys errors.
>
> Salutacions,
> Jaume Ortolà
>
>
>
>
> El 14 de març de 2013 18.09, Gabriel Plana <gabriel4 a gapla.cat> ha escrit:
>> Benvolguts:
>>
>>
>>
>> He utilitzat diverses vegades el vostre corrector en línia, el qual
>> considero d’una gran qualitat. Actualment estic desenvolupant una
>> aplicació d’escriptori per a un hospital que permetrà als metges poder
>> corregir en català les històries clíniques, no obstant em trobo amb
>> que necessito un fitxer de text amb totes les paraules possibles
>> catalanes (amb totes les seves possibles formes: plurals, femenins,
>> etc...) i mirant el vostre codi font no ho he sabut trobar.
>>
>>
>>
>> Hi hauria alguna manera d’aconseguir aquest fitxer de text amb TOTES
>> les paraules possibles catalanes?
>>
>>
>>
>> Moltes gràcies.
>>
>>
>>
>>                 Gabriel.
>>
>>
>> Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
>> _______________________________________________
>> http://llistes.softcatala.org/mailman/listinfo/corrector
>>
> Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
> _______________________________________________
> http://llistes.softcatala.org/mailman/listinfo/corrector
>
> Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
> _______________________________________________
> http://llistes.softcatala.org/mailman/listinfo/corrector



Més informació sobre la llista de correu Corrector