[Corrector] diccionari de partició de mots

Jaume Ortolà i Font jaumeortola a gmail.com
dij jul 5 20:46:54 CEST 2012


Hola,

He desenvolupat un diccionari de partició de mots en català que compleix
totes les excepcions que assenyala el GDLC. Estava fart, com molts altres
usuaris de l'Adobe InDesign (del món editorial), de les deficiències del
programa en la partició de mots, i com que l'InDesign ha incorporat l'opció
d'usar diccionaris Hunspell, he creat un diccionari nou i complet. El
mateix diccionari serveix per a Open/LibreOffice.

Us adjunte el diccionari perquè el proveu. També hi ha companys usuaris
d'InDesign que l'estan provant. Quan ens hàgem assegurat que funciona bé,
podríem penjar-lo en la web de Softcatalà, adequadament empaquetat per a
diferents programes i sistemes operatius.

El procediment per a crear el diccionari (per a qui tinga curiositat per
saber-ho) ha sigut el següent. He partit de totes les paraules del GDLC
 (unes 70.000) i de la informació de divisió sil·làbica que dóna el mateix
diccionari en algunes entrades (unes 20.000). Usant les llibreries de
divisió de paraules de TeX en Perl, he creat dos algorismes: un de simple
(amb les regles bàsiques de divisió de paraules sense excepcions) i un
altre de complet (regles bàsiques més excepcions). He anat afegit
excepcions al segon algorisme, he anat comptant errors i encerts en tots
dos algorismes, i he anat corregint, i així successivament. L'objectiu
(complit) era que l'algorisme complet funcionés per a totes les paraules
amb informació de divisió sil·làbica (20.000), i que l'algorisme simple i
el complet coincidiren en les paraules sense informació (50.000). Amb
aquestes comprovacions, els únics errors que podria tenir el diccionari
apareixerien en paraules derivades o compostes que no siguen en el GDLC i
que jo no haja previst. Per exemple, "besàvia, besàvies" serien errors, si
jo no hagués previst que a més de "be2s3avi" calia introduir "be2s3àvi" en
el diccionari. Finalment, per a usar els patterns de TeX en OpenOffice cal
fer una transformació prèvia, perquè l'algorisme de divisió de mots en
l'OpenOffice s'ha modificat lleugerament per a fer-lo més ràpid. Aquesta
qüestió ha estat a punt de tornar-me boig... fins que he trobat la
documentació que ho explica.

Proveu, doncs, el diccionari, i si us sembla bé, el podem afegir a la web
de Softcatalà. Es pot publicar com a arxiu .dic (que serviria per a l'Adobe
Indesign), com a paquet .oxt per a Open/LibreOffice i com a arxiu .tex.

Salutacions,
Jaume Ortolà
www.riuraueditors.cat
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20120705/734913ca/attachment.html>
-------------- part següent --------------
A non-text attachment was scrubbed...
Name: hyph_ca_ANY.dic
Type: application/octet-stream
Size: 17657 bytes
Desc: no disponible
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20120705/734913ca/attachment.obj>


Més informació sobre la llista de correu Corrector