[Corrector] nous diccionaris Hunspell

Josep Bofarull pep.bofarull a icloud.com
dll gen 26 08:58:07 CET 2015


Hola Jaume.

Estic encantat amb el corrector, el que passa que com que vinc de l'entorn Microsoft que utilitzava a la feina, ara m'he descarregat el OpenOffice4 i vaig una mica despistat. Tan bon punt ho tingui tot instal·lat intentaré fer algun comentari.

Records
Pep



El dia 16 gen. 2015 a les 13:40, Jaume Ortolà i Font <jaumeortola a gmail.com> va escriure:

Bon dia, 

Teníem pendent des de fa molts mesos reconstruir els diccionaris Hunspell de correcció ortogràfica i unificar-los amb el diccionari que usa el corrector gramatical LanguageTool. Ja ho tenim fet. Abans de fer una publicació oficial, però, ens agradaria que els provara més gent. Proveu-los i feu els suggeriments o les crítiques que cregueu oportuns. 

Els diccionaris es poden descarregar ací:
https://github.com/jaumeortola/catalan-dict-tools/tree/master/resultats/hunspell 

Per a provar-los en LibreOffice/Windows caldria fer això:

En la ruta  "%program_files%\LibreOffice 4\share\extensions\dict-ca\" hauríeu de  trobar els diccionaris que usa l'extensió inclosa en el LibreOffice. Amb  el LibreOffice apagat, substituïu els fitxers .aff i .dic amb els nous  que  vulgueu provar  (canviant-los el nom si cal), i després obriu el LibreOffice. 

A continuació explique diferents qüestions relacionades amb els diccionaris. Si voleu que n'amplie alguna, digueu-m'ho. 

Dicconaris Hunspell vs. LanguageTool

El corrector gramatical LanguageTool és molt més potent i flexible que els simples correctors ortogràfics. Ara bé, com que hi ha aplicacions que només funcionen amb un diccionari ortogràfic (p. ex. Adobe Indesign o alguns navegadors) i com que sempre hi haurà gent que no s'instal·la el corrector gramatical, cal que fem manteniment dels diccionaris Hunspell. 

En el LibreOffice, si teniu el LanguageTool, el corrector ortogràfic és, de fet, prescindible. Per a desactivar el diccionari Hunspell (que mostra els subratllats en vermell) i quedar-se només amb LT, cal anar a Eines>Opcions>Configuració de llengua>Ajudes a l'escriptura i llavors desactivar "Hunspell Spellchecker". LT farà la correcció ortogràfica i la gramatical al mateix temps, però només hi haurà subratllats en blau. 

Compostos amb guionets

Una mostra de la falta de flexibilitat del Hunspell són els compostos amb guionet. No hi ha una solució òptima. O es fa com en el punt 1 o com en el punt 2:

1) Marca error en "Barcelona-València" (malament!) i marca error en "canta-los" (bé!). És l'opció que tenim ara, però es pot canviar. 
2) No marca error en "Barcelona-València" (bé!) i no marca error en "canta-los" (malament!). 

¿Què preferiu?

Exclusions de paraules

Hi ha paraules que fan dubtar sobre si les hem d'incloure o no en els diccionaris. En el LanguageTool això és més fàcil de gestionar que en els diccionaris ortogràfics. En el LanguageTool incloem la majoria de paraules en el diccionari, i després hi ha regles que avisen del fet que tal paraula és d'ús discutit o només està admesa en alguns diccionaris. 

En canvi, en els diccionaris ortogràfics és o tot o res. O incloem la paraula o no la incloem. Ací teniu les exclusions que es fan en els diccionaris Hunspell ara mateix: 
https://github.com/jaumeortola/catalan-dict-tools/blob/master/fdic-to-hunspell/dades/exclusions.txt 

Es fan per diferents motius. En alguns casos és perquè, a pesar de ser paraules correctes, quasi sempre són errors (proba, composar, etc.) 

Diferents diccionaris Hunspell (català/valencià)

Com hem fet fins ara, tenim un diccionari "general" i un diccionari "valencià". Supose que és complicat fer-los a gust de tothom, però volem que siguen útils al màxim nombre de gent possible. Explique breument les semblances i les diferències.

- El gros del lèxic és comú a tots dos diccionaris.
- Tots dos diccionaris inclouen totes les formes verbals: generals, valencianes i balears. Un inconvenient d'això és que la primera persona del present d'indicatiu balear genera formes que poden ser errors ortogràfics en altres variants. 
- Accentuació. El diccionari general només inclou l'accentuació general (cafè). El valencià, en canvi, inclou les dues (café i cafè).
- Les exclusions de paraules són lleugerament diferents. Les podeu veure ací:
https://github.com/jaumeortola/catalan-dict-tools/blob/master/fdic-to-hunspell/dades/exclusions.txt 
Es podrien fer altres combinacions. El que hem fet és seguir aproximadament el que marquen el DIEC i el DNV. No és el criteri que jo personalment usaria, perquè acceptar o no "vivenda" o "disfrutar" no té res a veure amb el fet de ser valencià o no. Però no veig una altra manera de fer-ho.

I una qüestió final, en tots dos diccionaris hi ha bona part del lèxic no conflictiu del DOPV (de l'AVL). Podríem recuperar el lèxic més problemàtic i incloure'l en el diccionari valencià, però això s'hauria de fer amb el DNV, perquè el DOPV, pel que jo veig, ha quedat prou desfasat. El problema és que les dades del DNV no les tenim en un format accessible. Les hem demanades a l'AVL, però de moment no hi ha hagut resposta  

Salutacions,
Jaume Ortolà


Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
_______________________________________________
http://llistes.softcatala.org/mailman/listinfo/corrector 
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20150126/78a3c24a/attachment.html>


Més informació sobre la llista de correu Corrector