[Corrector] nous diccionaris Hunspell

Jaume Ortolà i Font jaumeortola a gmail.com
div gen 16 14:39:50 CET 2015


Bon dia,

Teníem pendent des de fa molts mesos reconstruir els diccionaris Hunspell
de correcció ortogràfica i unificar-los amb el diccionari que usa el
corrector gramatical LanguageTool. Ja ho tenim fet. Abans de fer una
publicació oficial, però, ens agradaria que els provara més gent.
Proveu-los i feu els suggeriments o les crítiques que cregueu oportuns.

Els diccionaris es poden descarregar ací:
https://github.com/jaumeortola/catalan-dict-tools/tree/master/resultats/hunspell

Per a provar-los en LibreOffice/Windows caldria fer això:

En la ruta "%program_files%\LibreOffice 4\share\extensions\dict-ca\"
hauríeu de trobar els diccionaris que usa l'extensió inclosa en el
LibreOffice. Amb el LibreOffice apagat, substituïu els fitxers .aff i .dic
amb els nous que vulgueu provar (canviant-los el nom si cal), i després
obriu el LibreOffice.

A continuació explique diferents qüestions relacionades amb els
diccionaris. Si voleu que n'amplie alguna, digueu-m'ho.

*Dicconaris Hunspell vs. LanguageTool*

El corrector gramatical LanguageTool és molt més potent i flexible que els
simples correctors ortogràfics. Ara bé, com que hi ha aplicacions que només
funcionen amb un diccionari ortogràfic (p. ex. Adobe Indesign o alguns
navegadors) i com que sempre hi haurà gent que no s'instal·la el corrector
gramatical, cal que fem manteniment dels diccionaris Hunspell.

En el LibreOffice, si teniu el LanguageTool, el corrector ortogràfic és, de
fet, prescindible. Per a desactivar el diccionari Hunspell (que mostra els
subratllats en vermell) i quedar-se només amb LT, cal anar a
Eines>Opcions>Configuració de llengua>Ajudes a l'escriptura i llavors
desactivar "Hunspell Spellchecker". LT farà la correcció ortogràfica i la
gramatical al mateix temps, però només hi haurà subratllats en blau.

*Compostos amb guionets*

Una mostra de la falta de flexibilitat del Hunspell són els compostos amb
guionet. No hi ha una solució òptima. O es fa com en el punt 1 o com en el
punt 2:

1) Marca error en "Barcelona-València" (malament!) i marca error en
"canta-los" (bé!). És l'opció que tenim ara, però es pot canviar.
2) No marca error en "Barcelona-València" (bé!) i no marca error en
"canta-los" (malament!).

¿Què preferiu?

*Exclusions de paraules*

Hi ha paraules que fan dubtar sobre si les hem d'incloure o no en els
diccionaris. En el LanguageTool això és més fàcil de gestionar que en els
diccionaris ortogràfics. En el LanguageTool incloem la majoria de paraules
en el diccionari, i després hi ha regles que avisen del fet que tal paraula
és d'ús discutit o només està admesa en alguns diccionaris.

En canvi, en els diccionaris ortogràfics és o tot o res. O incloem la
paraula o no la incloem. Ací teniu les exclusions que es fan en els
diccionaris Hunspell ara mateix:
https://github.com/jaumeortola/catalan-dict-tools/blob/master/fdic-to-hunspell/dades/exclusions.txt

Es fan per diferents motius. En alguns casos és perquè, a pesar de ser
paraules correctes, quasi sempre són errors (proba, composar, etc.)

*Diferents diccionaris Hunspell (català/valencià)*

Com hem fet fins ara, tenim un diccionari "general" i un diccionari
"valencià". Supose que és complicat fer-los a gust de tothom, però volem
que siguen útils al màxim nombre de gent possible. Explique breument les
semblances i les diferències.

- El gros del lèxic és comú a tots dos diccionaris.
- Tots dos diccionaris inclouen totes les formes verbals: generals,
valencianes i balears. Un inconvenient d'això és que la primera persona del
present d'indicatiu balear genera formes que poden ser errors ortogràfics
en altres variants.
- Accentuació. El diccionari general només inclou l'accentuació general
(cafè). El valencià, en canvi, inclou les dues (café i cafè).
- Les exclusions de paraules són lleugerament diferents. Les podeu veure
ací:
https://github.com/jaumeortola/catalan-dict-tools/blob/master/fdic-to-hunspell/dades/exclusions.txt
Es podrien fer altres combinacions. El que hem fet és seguir aproximadament
el que marquen el DIEC i el DNV. No és el criteri que jo personalment
usaria, perquè acceptar o no "vivenda" o "disfrutar" no té res a veure amb
el fet de ser valencià o no. Però no veig una altra manera de fer-ho.

I una qüestió final, en tots dos diccionaris hi ha bona part del lèxic no
conflictiu del DOPV (de l'AVL). Podríem recuperar el lèxic més problemàtic
i incloure'l en el diccionari valencià, però això s'hauria de fer amb el
DNV, perquè el DOPV, pel que jo veig, ha quedat prou desfasat. El problema
és que les dades del DNV no les tenim en un format accessible. Les hem
demanades a l'AVL, però de moment no hi ha hagut resposta

Salutacions,
Jaume Ortolà
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20150116/c689d462/attachment.html>


Més informació sobre la llista de correu Corrector