<html>
<head>
<meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#FFFFFF" text="#000000">
<div class="moz-cite-prefix">Al 09/05/13 9:58, En/na Joan Montané ha
escrit:<br>
</div>
<blockquote
cite="mid:CAKaaSX-HXTdVBmSHhkDFV=x3nuxYk-O+wiymPgrDKyD4W0ut+w@mail.gmail.com"
type="cite">
<div dir="ltr">Bon dia,<br>
<div>
<div class="gmail_extra"><br>
</div>
<div class="gmail_extra">ara li contesto.<br>
</div>
<div class="gmail_extra"><br>
<div class="gmail_quote">El 9 de maig de 2013 9.45, Pau
Sellés i Garcia <span dir="ltr"><<a
moz-do-not-send="true"
href="mailto:pau.selles@josoc.cat" target="_blank">pau.selles@josoc.cat</a>></span>
ha escrit:<br>
<blockquote class="gmail_quote" style="margin:0px 0px 0px
0.8ex;border-left:1px solid
rgb(204,204,204);padding-left:1ex">A mi eixe error em
passa a Pages, LibreOffice i Thunderbird. No és un
problema del catalanitzador, és un problema del
diccionari.</blockquote>
<div><br>
</div>
<div>No és un problema del diccionari, tampoc del motor
del diccionari (hunspell?). El diccionari està ben
definit (conté els mots amb ela geminada). El problema
és com el programa "trenca" el text en paraules. En el
cas dels productes Mozilla , talla les paraules amb ela
gemianda i envia cada "paraula" al corrector ortogràfic.
Així "instal·lació" es converteix en 2 paraules "instal"
i "lació". La primera el nostre diccionari la dóna per
bona ("instal", forma balear equivalent a "instal·lo"),
per això només es queixa de la 2a part "lació". Els
correctors ortogràfics no poden fer-hi res perquè els hi
arriben dues paraules en comptes d'una. Aquesta mala
segmentació és EL problema que tenim amb el punt volat
(a banda del tipogràfic/estètic).<br>
<br>
</div>
<div>Pau S: el LibreOffice hauria de segmentar
correctament les paraules amb ela geminada si el text
està definit com a català.<br>
</div>
</div>
</div>
</div>
</div>
</blockquote>
Tens raó. Em semblava haver vist el problema a la versió PowerPC,
però no ;). Només detecte el problema a Pages i Thunderbird. Per
cert, has vist els meus missatges de la llista de LibreOffice?<br>
<blockquote
cite="mid:CAKaaSX-HXTdVBmSHhkDFV=x3nuxYk-O+wiymPgrDKyD4W0ut+w@mail.gmail.com"
type="cite">
<div dir="ltr">
<div>
<div class="gmail_extra">
<div class="gmail_quote">
<div><br>
</div>
<div>En relació a això, si cap de vosaltres pot
desenvolupar un petit programa que usi la biblioteca ICU
i que mostri la segmentació de paraules d'un text, ens
ajudaria molt a seguir on està el problema. Resulta que
en Sebas Vila, del grup de la Ela Geminada, s'ha llegit
la classificació assignada al punt volat a can Unicode
i, segons sembla, no hauria de segmentar. Per tant...
creiem que potser és una mala implementació a la
biblioteca ICU de les propietats del punt volat
assignades a Unicode. Un petit programet (per terminal
mateix) que li passessim una frase i ens retornes les
segmentacions ens aniria molt bé per a fer diagnòstic de
que coi passa.<br>
<br>
<br>
</div>
</div>
Joan Montané<br>
</div>
</div>
</div>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
<pre wrap="">_______________________________________________
Catalanitzador mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Catalanitzador@llistes.softcatala.org">Catalanitzador@llistes.softcatala.org</a>
<a class="moz-txt-link-freetext" href="http://llistes.softcatala.org/mailman/listinfo/catalanitzador">http://llistes.softcatala.org/mailman/listinfo/catalanitzador</a>
_______________________________________________
Codi de conducta: <a class="moz-txt-link-freetext" href="http://www.softcatala.org/wiki/Codi_de_conducta">http://www.softcatala.org/wiki/Codi_de_conducta</a></pre>
</blockquote>
<br>
<br>
<pre class="moz-signature" cols="72">--
Una salutació,
----------------------
Pau Sellés i Garcia
<a class="moz-txt-link-abbreviated" href="mailto:pau.selles@josoc.cat">pau.selles@josoc.cat</a>
----------------------</pre>
</body>
</html>