
Joan, Gràcies per la resposta. Sí que havia tingut en compte "argüir", però no "aguar". De fet, ni tan sols tinc "aguar" en el diccionari. Supose que no hi era quan vaig descarregar les dades de la web. Com a excepció que és, el GDLC també hauria de donar-ne la divisió sil·làbica. "Deisi" ara apareix sense accent tant al GDLC com al DIEC. Aquestes coses deuen anar canviant... I tant "deisi" com tots els acabats en "-eids" apareixen sense hiat en el GDLC i en aquest altre diccionari que he descobert ara [1]. Com a curiositats, he trobat aquests altres casos de diferent divisió segons la funció del mot: - periòdic (pe-ri-ò-dic) i àcid periòdic (per-iò-dic). - reiter (rei-ter), nom alemany, i reiter (re-i-ter), forma balear de reiterar. En aquestes paraules, com en "aguant", caldria tenir més informació gramatical per a fer la divisió correcta. No sé si es pot controlar la divisió de mots des de LanguageTool. Però, en fi, això sí que seria filar molt molt prim per tres paraules... Copie més avall una llista de paraules que en el GDLC tenen una divisió errònia, incoherent o dubtosa. He escrit a Enciclopèdia Catalana a veure què diuen. També és dubtosa la divisió de shakespearià (sha_kes_pe_a_ri_à segons el GDLC) o altres. Pere Farrando, que es dedica professionalment a la composició de texts, m'acaba d'escriure i m'ha trobat només dues excepcions no reconegudes: mileurista i altimperial. Salutacions, Jaume Ortolà [1] http://ca.oslin.org/syllables.php abarognòsia a_ba_rog_nò_si_a barognòsia ba_rog_nò_si_a hidrognòsia hi_dro_gnò_si_a (i altres acabats en -gnòsia) tiourea ti_ou_re_a al·liltiourea al_lil_ti_o_u_re_a tiouridina ti_ou_ri_di_na anal·lagmàtic anabiosi an_a_bi_o_si anabiòtic a_na_bi_ò_tic ananabàsia a_na_na_bà_si_a enal·logen hepthemímera hio- hioglòs hi_o_glòs hioide hioi_de hiosciamina hi_os_ci_a_mi_na hioscina hi_os_ci_na hioïdal hio_ï_dal hiperèmesi hiperèmia malaveig ma_la_veig malavejar mal_a_ve_jar microperthita parathormona peroxidació pe_ro_xi_da_ci_ó peroxidar per_o_xi_dar peroxidasa peroxiàcid pe_ro_xi_à_cid perthita suberització sub_e_rit_za_ci_ó subintrant subintrar subulat tetraiodofenolftaleïna te_tra_io_do_fe_nolf_ta_le_ï_na (hauria de ser ...fe_nol_fta_le_ï_na) El 5 de juliol de 2012 21:05, Joan Montané <joan@montane.cat> ha escrit:
Ep!
fa molt bona pinta, el provaré (també el Languagetool... el tinc a la cua). Hi ha una versió en format oxt de fa temps [1], no tan completa com aquesta, però més que suficient.
Només un comentaris, de casos moooolt poc freqÜent, per si no ho has tingut en compte.
Els mots aguar i argüir són excepcions a la ortografia. Tenen un hiat entre la u i la vocal que la segueix, els derivats també. Atenció a la forma "aguant", que tant pot ser el gerundi d'"aguar", amb hiat, com la forma balear equivalent a "aguanto", d'aguantar, amb digtong.
Els mot "dèisi", i alguns tàxons com escarabèids i altres tàxons acabats en vocal+ids, no està clar com s'han d'escriure. El DIEC indica la versió sense accent, però el GDLC indica la versió amb accent. En tot cas... crec que l'hiat sempre hi és. O potser no? És d'aquells casos on no se sap si la pronúncia influeix en l'ortografia... o just a l'inrevés.
Atentament, Joan Montané
[1] http://www.softcatala.org/wiki/Rebost:Diccionari_catal%C3%A0_de_partici%C3%B...
El 5 de juliol de 2012 20:46, Jaume Ortolà i Font <jaumeortola@gmail.com> ha escrit:
Hola,
He desenvolupat un diccionari de partició de mots en català que compleix totes les excepcions que assenyala el GDLC. Estava fart, com molts altres usuaris de l'Adobe InDesign (del món editorial), de les deficiències del programa en la partició de mots, i com que l'InDesign ha incorporat l'opció d'usar diccionaris Hunspell, he creat un diccionari nou i complet. El mateix diccionari serveix per a Open/LibreOffice.
Us adjunte el diccionari perquè el proveu. També hi ha companys usuaris d'InDesign que l'estan provant. Quan ens hàgem assegurat que funciona bé, podríem penjar-lo en la web de Softcatalà, adequadament empaquetat per a diferents programes i sistemes operatius.
El procediment per a crear el diccionari (per a qui tinga curiositat per saber-ho) ha sigut el següent. He partit de totes les paraules del GDLC (unes 70.000) i de la informació de divisió sil·làbica que dóna el mateix diccionari en algunes entrades (unes 20.000). Usant les llibreries de divisió de paraules de TeX en Perl, he creat dos algorismes: un de simple (amb les regles bàsiques de divisió de paraules sense excepcions) i un altre de complet (regles bàsiques més excepcions). He anat afegit excepcions al segon algorisme, he anat comptant errors i encerts en tots dos algorismes, i he anat corregint, i així successivament. L'objectiu (complit) era que l'algorisme complet funcionés per a totes les paraules amb informació de divisió sil·làbica (20.000), i que l'algorisme simple i el complet coincidiren en les paraules sense informació (50.000). Amb aquestes comprovacions, els únics errors que podria tenir el diccionari apareixerien en paraules derivades o compostes que no siguen en el GDLC i que jo no haja previst. Per exemple, "besàvia, besàvies" serien errors, si jo no hagués previst que a més de "be2s3avi" calia introduir "be2s3àvi" en el diccionari. Finalment, per a usar els patterns de TeX en OpenOffice cal fer una transformació prèvia, perquè l'algorisme de divisió de mots en l'OpenOffice s'ha modificat lleugerament per a fer-lo més ràpid. Aquesta qüestió ha estat a punt de tornar-me boig... fins que he trobat la documentació que ho explica.
Proveu, doncs, el diccionari, i si us sembla bé, el podem afegir a la web de Softcatalà. Es pot publicar com a arxiu .dic (que serviria per a l'Adobe Indesign), com a paquet .oxt per a Open/LibreOffice i com a arxiu .tex.
Salutacions, Jaume Ortolà www.riuraueditors.cat
_______________________________________________ Corrector mailing list Corrector@llistes.softcatala.org http://llistes.softcatala.org/mailman/listinfo/corrector
_______________________________________________ Corrector mailing list Corrector@llistes.softcatala.org http://llistes.softcatala.org/mailman/listinfo/corrector