[Corrector] Dubte diccionari

Gabriel Plana gabriel4 a gapla.cat
div mar 15 09:21:59 CET 2013


Bon dia, Jaume.

No saps com t'agraeixo la teva ajuda. No m'havia ni plantejat el tema dels pronoms febles, articles apostrofats, etc...
En el meu cas, les aplicacions estan fetes en una plataforma anomenada PowerBuilder i ens hem vist obligats a comprar un corrector d'una empresa, amb qui hem fet un pacte per passar-los-hi un diccionari en un fitxer text (on en cada línia hi hauria una paraula o token com tu dius) i són ells qui s'encarreguen de compil·lar-lo en un format natiu seu que utilitza aquest motor de correcció.

Entenc que no hi ha problema en que tingui 700.000 paraules, però els preguntaré el tema de com separen els tokens perquè, efectivament, haurien de separar-los no només per espais i signes de puntuació sinó també per guionets i apòstrofs.

Si us puc ajudar d'alguna manera i podem unir esforços, si us plau, fes-m'ho saber.

Salut!

Gabriel Plana

-----Mensaje original-----
De: corrector-bounces a llistes.softcatala.org [mailto:corrector-bounces a llistes.softcatala.org] En nombre de Jaume Ortolà i Font
Enviado el: viernes, 15 de marzo de 2013 9:05
Para: Desenvolupament de correctors ortogràfics i gramaticals
Asunto: Re: [Corrector] Dubte diccionari

Gabriel,

Sí, es tracta d'un arxiu que conté totes les paraules derivades (plurals, femenins, verbs conjugats).

No sé com el faràs servir i no sé si t'has plantejat les dificultats que poden sorgir.

Un diccionari bàsic (sense paraules derivades) pot tenir de l'ordre de
70.000 entrades. Una llista amb totes les paraules derivades té cap a
700.000 formes. Per a fer-hi consultes de manera eficient, cal compilar la llista d'alguna manera.

Una altre possible problema és la tokenització (la divisió de les frases en elements més bàsics, "tokens"). Segons com es faça la tokenització, la llista ha de ser d'una manera o una altra. El corrector Hunspell que fem servir en LibreOffice no divideix les paraules unides per guionets i apòstrofs (articles, pronoms, etc.).
Això vol dir que "d'emportar-nos-el" és un sol token i no quatre. En aquest cas, la llista de 700.000 formes es multiplica (ara no sé exactament per quant, per 10 o per 20...). L'arxiu resultant pesa més de 100 megues.

¿Saps, doncs, com funciona el teu motor de correcció i quin tipus de llista de paraules necessita?

Com a opció alternativa, si en el teu sistema pots integrar una aplicació Java, podries posar-hi el corrector LanguageTool:
http://languagetool.org/ca/

A més de correcció ortogràfica, també fa correcció gramatical. És el corrector en què estem treballant ara, i que aviat posarem en la pàgina web de Softcatalà.

Salutacions,
Jaume Ortolà




El 14 de març de 2013 20.42, Gabriel Plana <gabriel4 a gapla.cat> ha escrit:
> Moltíssimes gràcies, Jaume.
> Per descomptat que puc esperar uns dies. Només una cosa: aquesta llista tindrà les paraules amb totes les formes (plurals, femenins, etc...) ?
> Perquè ara mateix ja disposo d'un fitxer de text amb paraules tipus "diccionari clàssic" però no hi ha cap plural ni femení...
>
> Salut!
>
> Gabriel Plana
>
> -----Mensaje original-----
> De: corrector-bounces a llistes.softcatala.org 
> [mailto:corrector-bounces a llistes.softcatala.org] En nombre de Jaume 
> Ortolà i Font Enviado el: jueves, 14 de marzo de 2013 18:29
> Para: Desenvolupament de correctors ortogràfics i gramaticals
> Asunto: Re: [Corrector] Dubte diccionari
>
> Gabriel,
>
> Sí que disposem d'aquesta llista de paraules. De fet jo ara estic treballant amb arxius d'aquest estil. Estic comparant diferents diccionaris per a corregir-los i completar-los. Si pots esperar uns pocs dies (menys d'una setmana), et passaré la llista més actualitzada i amb menys errors.
>
> Salutacions,
> Jaume Ortolà
>
>
>
>
> El 14 de març de 2013 18.09, Gabriel Plana <gabriel4 a gapla.cat> ha escrit:
>> Benvolguts:
>>
>>
>>
>> He utilitzat diverses vegades el vostre corrector en línia, el qual 
>> considero d’una gran qualitat. Actualment estic desenvolupant una 
>> aplicació d’escriptori per a un hospital que permetrà als metges 
>> poder corregir en català les històries clíniques, no obstant em trobo 
>> amb que necessito un fitxer de text amb totes les paraules possibles 
>> catalanes (amb totes les seves possibles formes: plurals, femenins,
>> etc...) i mirant el vostre codi font no ho he sabut trobar.
>>
>>
>>
>> Hi hauria alguna manera d’aconseguir aquest fitxer de text amb TOTES 
>> les paraules possibles catalanes?
>>
>>
>>
>> Moltes gràcies.
>>
>>
>>
>>                 Gabriel.
>>
>>
>> Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
>> _______________________________________________
>> http://llistes.softcatala.org/mailman/listinfo/corrector
>>
> Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
> _______________________________________________
> http://llistes.softcatala.org/mailman/listinfo/corrector
>
> Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
> _______________________________________________
> http://llistes.softcatala.org/mailman/listinfo/corrector
Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
_______________________________________________
http://llistes.softcatala.org/mailman/listinfo/corrector




Més informació sobre la llista de correu Corrector