[Corrector] diccionari de partició de mots

Jaume Ortolà i Font jaumeortola a gmail.com
dij jul 5 22:50:50 CEST 2012


Joan,

Gràcies per la resposta.

Sí que havia tingut en compte "argüir", però no "aguar". De fet, ni tan
sols tinc "aguar" en el diccionari. Supose que no hi era quan vaig
descarregar les dades de la web. Com a excepció que és, el GDLC també
hauria de donar-ne la divisió sil·làbica. "Deisi" ara apareix sense accent
tant al GDLC com al DIEC. Aquestes coses deuen anar canviant... I tant
"deisi" com tots els acabats en "-eids" apareixen sense hiat en el GDLC i
en aquest altre diccionari que he descobert ara [1].

Com a curiositats, he trobat aquests altres casos de diferent divisió
segons la funció del mot:
- periòdic (pe-ri-ò-dic) i àcid periòdic (per-iò-dic).
- reiter (rei-ter), nom alemany, i reiter (re-i-ter), forma balear de
reiterar.

En aquestes paraules, com en "aguant", caldria tenir més informació
gramatical per a fer la divisió correcta. No sé si es pot controlar la
divisió de mots des de LanguageTool. Però, en fi, això sí que seria filar
molt molt prim per tres paraules...

Copie més avall una llista de paraules que en el GDLC tenen una divisió
errònia, incoherent o dubtosa. He escrit a Enciclopèdia Catalana a veure
què diuen. També és dubtosa la divisió de shakespearià (sha_kes_pe_a_ri_à
segons el GDLC) o altres.

Pere Farrando, que es dedica professionalment a la composició de texts,
m'acaba d'escriure i m'ha trobat només dues excepcions no reconegudes:
mileurista i altimperial.

Salutacions,
Jaume Ortolà

[1]  http://ca.oslin.org/syllables.php


abarognòsia a_ba_rog_nò_si_a
barognòsia ba_rog_nò_si_a
hidrognòsia hi_dro_gnò_si_a
(i altres acabats en -gnòsia)
tiourea ti_ou_re_a
al·liltiourea al_lil_ti_o_u_re_a
tiouridina ti_ou_ri_di_na
anal·lagmàtic
anabiosi an_a_bi_o_si
anabiòtic a_na_bi_ò_tic
ananabàsia a_na_na_bà_si_a
enal·logen
hepthemímera
hio-
hioglòs hi_o_glòs
hioide hioi_de
hiosciamina hi_os_ci_a_mi_na
hioscina hi_os_ci_na
hioïdal hio_ï_dal
hiperèmesi
hiperèmia
malaveig ma_la_veig
malavejar mal_a_ve_jar
microperthita
parathormona
peroxidació pe_ro_xi_da_ci_ó
peroxidar per_o_xi_dar
peroxidasa
peroxiàcid pe_ro_xi_à_cid
perthita
suberització sub_e_rit_za_ci_ó
subintrant
subintrar
subulat
tetraiodofenolftaleïna te_tra_io_do_fe_nolf_ta_le_ï_na (hauria de ser
...fe_nol_fta_le_ï_na)




El 5 de juliol de 2012 21:05, Joan Montané <joan a montane.cat> ha escrit:

> Ep!
>
> fa molt bona pinta, el provaré (també el Languagetool... el tinc a la
> cua). Hi ha una versió en format oxt de fa temps [1], no tan completa
> com aquesta, però més que suficient.
>
> Només un comentaris,  de casos moooolt poc freqÜent, per si no ho has
> tingut en compte.
>
> Els mots aguar i argüir són excepcions a la ortografia. Tenen un hiat
> entre la u i la vocal que la segueix, els derivats també. Atenció a la
> forma "aguant", que tant pot ser el gerundi d'"aguar", amb hiat, com
> la forma balear equivalent a "aguanto", d'aguantar, amb digtong.
>
> Els mot "dèisi", i alguns tàxons com  escarabèids i altres tàxons
> acabats en vocal+ids, no està clar com s'han d'escriure. El DIEC
> indica la versió sense accent, però el GDLC indica la versió amb
> accent. En tot cas... crec que l'hiat sempre hi és. O potser no? És
> d'aquells casos on no se sap si la pronúncia influeix en
> l'ortografia... o just a l'inrevés.
>
> Atentament,
> Joan Montané
>
> [1]
> http://www.softcatala.org/wiki/Rebost:Diccionari_catal%C3%A0_de_partici%C3%B3_de_mots_per_a_l%27OpenOffice.org
>
> El 5 de juliol de 2012 20:46, Jaume Ortolà i Font
> <jaumeortola a gmail.com> ha escrit:
> > Hola,
> >
> > He desenvolupat un diccionari de partició de mots en català que compleix
> > totes les excepcions que assenyala el GDLC. Estava fart, com molts altres
> > usuaris de l'Adobe InDesign (del món editorial), de les deficiències del
> > programa en la partició de mots, i com que l'InDesign ha incorporat
> l'opció
> > d'usar diccionaris Hunspell, he creat un diccionari nou i complet. El
> mateix
> > diccionari serveix per a Open/LibreOffice.
> >
> > Us adjunte el diccionari perquè el proveu. També hi ha companys usuaris
> > d'InDesign que l'estan provant. Quan ens hàgem assegurat que funciona bé,
> > podríem penjar-lo en la web de Softcatalà, adequadament empaquetat per a
> > diferents programes i sistemes operatius.
> >
> > El procediment per a crear el diccionari (per a qui tinga curiositat per
> > saber-ho) ha sigut el següent. He partit de totes les paraules del GDLC
> > (unes 70.000) i de la informació de divisió sil·làbica que dóna el mateix
> > diccionari en algunes entrades (unes 20.000). Usant les llibreries de
> > divisió de paraules de TeX en Perl, he creat dos algorismes: un de simple
> > (amb les regles bàsiques de divisió de paraules sense excepcions) i un
> altre
> > de complet (regles bàsiques més excepcions). He anat afegit excepcions al
> > segon algorisme, he anat comptant errors i encerts en tots dos
> algorismes, i
> > he anat corregint, i així successivament. L'objectiu (complit) era que
> > l'algorisme complet funcionés per a totes les paraules amb informació de
> > divisió sil·làbica (20.000), i que l'algorisme simple i el complet
> > coincidiren en les paraules sense informació (50.000). Amb aquestes
> > comprovacions, els únics errors que podria tenir el diccionari
> apareixerien
> > en paraules derivades o compostes que no siguen en el GDLC i que jo no
> haja
> > previst. Per exemple, "besàvia, besàvies" serien errors, si jo no hagués
> > previst que a més de "be2s3avi" calia introduir "be2s3àvi" en el
> diccionari.
> > Finalment, per a usar els patterns de TeX en OpenOffice cal fer una
> > transformació prèvia, perquè l'algorisme de divisió de mots en
> l'OpenOffice
> > s'ha modificat lleugerament per a fer-lo més ràpid. Aquesta qüestió ha
> estat
> > a punt de tornar-me boig... fins que he trobat la documentació que ho
> > explica.
> >
> > Proveu, doncs, el diccionari, i si us sembla bé, el podem afegir a la
> web de
> > Softcatalà. Es pot publicar com a arxiu .dic (que serviria per a l'Adobe
> > Indesign), com a paquet .oxt per a Open/LibreOffice i com a arxiu .tex.
> >
> > Salutacions,
> > Jaume Ortolà
> > www.riuraueditors.cat
> >
> >
> >
> > _______________________________________________
> > Corrector mailing list
> > Corrector a llistes.softcatala.org
> > http://llistes.softcatala.org/mailman/listinfo/corrector
> >
> _______________________________________________
> Corrector mailing list
> Corrector a llistes.softcatala.org
> http://llistes.softcatala.org/mailman/listinfo/corrector
>
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20120705/6a55e01f/attachment.html>


Més informació sobre la llista de correu Corrector