[Corrector] diccionari de partició de mots

Joan Montané joan a montane.cat
dij jul 5 21:05:33 CEST 2012


Ep!

fa molt bona pinta, el provaré (també el Languagetool... el tinc a la
cua). Hi ha una versió en format oxt de fa temps [1], no tan completa
com aquesta, però més que suficient.

Només un comentaris,  de casos moooolt poc freqÜent, per si no ho has
tingut en compte.

Els mots aguar i argüir són excepcions a la ortografia. Tenen un hiat
entre la u i la vocal que la segueix, els derivats també. Atenció a la
forma "aguant", que tant pot ser el gerundi d'"aguar", amb hiat, com
la forma balear equivalent a "aguanto", d'aguantar, amb digtong.

Els mot "dèisi", i alguns tàxons com  escarabèids i altres tàxons
acabats en vocal+ids, no està clar com s'han d'escriure. El DIEC
indica la versió sense accent, però el GDLC indica la versió amb
accent. En tot cas... crec que l'hiat sempre hi és. O potser no? És
d'aquells casos on no se sap si la pronúncia influeix en
l'ortografia... o just a l'inrevés.

Atentament,
Joan Montané

[1] http://www.softcatala.org/wiki/Rebost:Diccionari_catal%C3%A0_de_partici%C3%B3_de_mots_per_a_l%27OpenOffice.org

El 5 de juliol de 2012 20:46, Jaume Ortolà i Font
<jaumeortola a gmail.com> ha escrit:
> Hola,
>
> He desenvolupat un diccionari de partició de mots en català que compleix
> totes les excepcions que assenyala el GDLC. Estava fart, com molts altres
> usuaris de l'Adobe InDesign (del món editorial), de les deficiències del
> programa en la partició de mots, i com que l'InDesign ha incorporat l'opció
> d'usar diccionaris Hunspell, he creat un diccionari nou i complet. El mateix
> diccionari serveix per a Open/LibreOffice.
>
> Us adjunte el diccionari perquè el proveu. També hi ha companys usuaris
> d'InDesign que l'estan provant. Quan ens hàgem assegurat que funciona bé,
> podríem penjar-lo en la web de Softcatalà, adequadament empaquetat per a
> diferents programes i sistemes operatius.
>
> El procediment per a crear el diccionari (per a qui tinga curiositat per
> saber-ho) ha sigut el següent. He partit de totes les paraules del GDLC
> (unes 70.000) i de la informació de divisió sil·làbica que dóna el mateix
> diccionari en algunes entrades (unes 20.000). Usant les llibreries de
> divisió de paraules de TeX en Perl, he creat dos algorismes: un de simple
> (amb les regles bàsiques de divisió de paraules sense excepcions) i un altre
> de complet (regles bàsiques més excepcions). He anat afegit excepcions al
> segon algorisme, he anat comptant errors i encerts en tots dos algorismes, i
> he anat corregint, i així successivament. L'objectiu (complit) era que
> l'algorisme complet funcionés per a totes les paraules amb informació de
> divisió sil·làbica (20.000), i que l'algorisme simple i el complet
> coincidiren en les paraules sense informació (50.000). Amb aquestes
> comprovacions, els únics errors que podria tenir el diccionari apareixerien
> en paraules derivades o compostes que no siguen en el GDLC i que jo no haja
> previst. Per exemple, "besàvia, besàvies" serien errors, si jo no hagués
> previst que a més de "be2s3avi" calia introduir "be2s3àvi" en el diccionari.
> Finalment, per a usar els patterns de TeX en OpenOffice cal fer una
> transformació prèvia, perquè l'algorisme de divisió de mots en l'OpenOffice
> s'ha modificat lleugerament per a fer-lo més ràpid. Aquesta qüestió ha estat
> a punt de tornar-me boig... fins que he trobat la documentació que ho
> explica.
>
> Proveu, doncs, el diccionari, i si us sembla bé, el podem afegir a la web de
> Softcatalà. Es pot publicar com a arxiu .dic (que serviria per a l'Adobe
> Indesign), com a paquet .oxt per a Open/LibreOffice i com a arxiu .tex.
>
> Salutacions,
> Jaume Ortolà
> www.riuraueditors.cat
>
>
>
> _______________________________________________
> Corrector mailing list
> Corrector a llistes.softcatala.org
> http://llistes.softcatala.org/mailman/listinfo/corrector
>



Més informació sobre la llista de correu Corrector