[Catalanitzador] Ela geminada al Mac OS X (corrector)

Joan Montané joan a montane.cat
dij maig 9 09:58:08 CEST 2013


Bon dia,

ara li contesto.

El 9 de maig de 2013 9.45, Pau Sellés i Garcia <pau.selles a josoc.cat> ha
escrit:

> A mi eixe error em passa a Pages, LibreOffice i Thunderbird. No és un
> problema del catalanitzador, és un problema del diccionari.


No és un problema del diccionari, tampoc del motor del diccionari
(hunspell?). El diccionari està ben definit (conté els mots amb ela
geminada). El problema és com el programa "trenca" el text en paraules. En
el cas dels productes Mozilla , talla les paraules amb ela gemianda i envia
cada "paraula" al corrector ortogràfic. Així "instal·lació" es converteix
en 2 paraules "instal" i "lació". La primera el nostre diccionari la dóna
per bona ("instal", forma balear equivalent a "instal·lo"), per això només
es queixa de la 2a part "lació". Els correctors ortogràfics no poden fer-hi
res perquè els hi arriben dues paraules en comptes d'una. Aquesta mala
segmentació és EL problema que tenim amb el punt volat (a banda del
tipogràfic/estètic).

Pau S: el LibreOffice hauria de segmentar correctament les paraules amb ela
geminada si el text està definit com a català.

En relació a això, si cap de vosaltres pot desenvolupar un petit programa
que usi la biblioteca ICU i que mostri la segmentació de paraules d'un
text, ens ajudaria molt a seguir on està el problema. Resulta que en Sebas
Vila, del grup de la Ela Geminada, s'ha llegit la classificació assignada
al punt volat a can Unicode i, segons sembla, no hauria de segmentar. Per
tant... creiem que potser és una mala implementació a la biblioteca ICU de
les propietats del punt volat assignades a Unicode. Un petit programet (per
terminal mateix) que li passessim una frase i ens retornes les
segmentacions ens aniria molt bé per a fer diagnòstic de que coi passa.


Joan Montané
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/catalanitzador/attachments/20130509/99333a4a/attachment.html>


Més informació sobre la llista de correu Catalanitzador