[Corrector] Codificació

div maig 15 10:22:18 CEST 2015

El dia 14 de maig de 2015, 16:34, Xavi Ivars <xavi.ivars a gmail.com> ha
escrit:

> Només un parell d'apunts al que ha comentat Joan
>
> El dia 14 de maig de 2015, 14:21, Joan Montané <joan a montane.cat> ha
> escrit:
>>
>>
>> problemes? prou, els asturians (codi ast) et podrien explicar una
>> pel·lícula sencera. Per poc que puguis, fuig-ne, :)
>>
>> A veure... el cas de l'aranès és molt peculiar. El codi de llengua és
>> clar que li toca 'oc', per tant el locale hauria de ser 'oc-ES', però no hi
>> ha cap tradició d'implementar l'aranès (separat de l'occità) en el món
>> tecnològic. Si hi sumem la pròpia problemàtica de l'occità deguda a una
>> separació inicial entre gascó i occità.. doncs encara pitjor. Segons el meu
>> parer, tens un problema de manca de tradició tecnològica en aranès, i de
>> base poblacional significativa en relació a la població total occitanòfona.
>> Com a gran avantatge, la Vall d'Aran és l'únic lloc on l'occità és oficial,
>> encara que això no hagi servit per a res en el món digital (Generalitat, on
>> ets?)
>>
>
>
> Apertium ja separa "occita" (entés com occità llenguadocià) i "aranés"
> (entés com a occità gascó). I de fet, es va fer en un projecte finançat per
> la Generalitat de Catalunya.
>
>
>>
>> Suposo que tu, Xavier, deus treballar sol, i que el teu objectiu és
>> implementar l'aranès en els paquets ofimàtics tan aviat com sigui possible
>> i de forma definitiva. Has valorat l'opció de no separar el codi respecte
>> l'occità?
>>
>> M'explico. En català, podríem usar els codis ca-ES, ca-AD, ca-FR o ca-IT
>> (ara també el codi ca-ES-valencia), tots ells reconeguts, però sempre hem
>> usat només, el codi "ca-ES" per als documents. Entre altres coses per
>> motius pràctics, i perquè és el codi usat al món Microsoft i suportat per
>> altres fabricants. Anàlogament, el codi suportat pels fabricants per a
>> l'occità és l'oc-FR. La part d'estat del codi és gairebé transparent per a
>> l'usuari, fixa't que a l'AOO i al LibreOffice no surt "Occità (França)",
>> només apareix "Occità", i ara que no tenim francs ni pessetes, la moneda
>> tampoc molesta.
>>
>> Potser una solució fàcil seria el que fèiem nosaltres per al valencià.
>> Podeu usar el locale de l'occità (oc-FR) i afegir-hi manualment un
>> diccionari amb les paraules araneses. El LibreOffice (també l'AOO) usarà
>> els dos diccionaris per a corregir (l'occità general i l'aranès). Desconec
>> si aquesta opció seria satisfactòria per a vosaltres, atès que caldria
>> instal·lar una extensió manualment i donaria per bones les formes de
>> l'occità general. Com a gran avantatge, la interfície es mostraria en
>> occità.
>>
>> Si vols un locale propi per l'aranès, segueixo pensant que el codi
>> 'oc-ES' és el correcte, no veig perquè us "obliguen" a usar el codi "oci".
>> Sempre que hi ha un codi de 2 lletres (i en aquest cas existeix), s'ha
>> d'usar el de 2 lletres.
>>
>
> Això tampoc és totalment cert. El codi ISO 639-3 (de tres lletres) no
> s'ha d'utilitzar només quan no existeix un codi equivalent ISO 639-1 (de
> dos lletres). Si fos així, totes les llengües que apareixen al 639-1 no
> apareixerien al 639-3.
>
> De fet és al contrari, 639-3 és "l'evolució natural" del 639-1: ja que és
> un "supergrup" del primer estàndar. De fet, BCP-47 [1] (que està
> implementat per LibreOffice) admet tant codis de llengua de dos o tres
> lletres, sense problema. Una altra cosa és que la implementació de
> l'estàndard no siga correcta.
>
> I, de nou, Apertium ha començat a "migrar" dels codis de dos als de tres
> lletres: tots els nous paquets d'idioma [2] utilitzen els codis de 3
> lletres, i molts parells de llengües ja han migrat a aquestos codis [3],
> per consistència (i no deixar als asturians abandonats, sinó tindre tot en
> 3 lletres)
>
> Això no vol dir que no hi hagen inconvenients (Android, per exemple, no
> permet els codis de 3 lletres), però pel que respecta a LibreOffice, no
> hauria d'importar. I si són els desenvolupadors de LibO els que suggereixen
> utilitzar el de 3 possiblement siga pel mateix: començar a migrar cap als
> codis de tres lletres.
>
>
Xavier,

entenc el que indiques però, a la pràctica, s'usa el codi de 2 lletres si
existeix. Especialment si l'identificador de llengua s'insereix en les
metadadades del document/text, o n'és un atribut. Simplement perquè la
sintaxi del BCP 47 és una extensió/ampliació del sistema tradicional xx-YY
(2 lletres per a llengua i 2 per a estat) i n'és compatible cap a enrera.
Per tant, dubto que s'abandonin mai els codis de 2 lletres i, encara que es
fes, caldria mantenir la compatibiltat amb els codis de 2 perquè es troben
a un bon nombre de documents.

De fet, al web del BCP 47 [1] hi indica:

language      = 2*3ALPHA            ; shortest ISO 639 code

És a dir, el codi més curt de la família ISO639. I, fins on tinc
coneixement, aquesta és la pràctica del fabricants (Microsoft, Google,
CLDR, Linux...). Sempre que hi ha un codi de 2, s'usa el de 2, i, si no
existeix, doncs el de 3.

A l'apertium poden usar els codis de 3 lletres, evidentment, però,
corregeix-me si m'equivoco, no treballen amb les metadades del documents
html/odt. Simplement usen els codis per a identificar els paquets de
llengua, no per a declarar la llengua dels documents o del text. Si aquest
fos el cas, segurament haurien d'usar els codis de 2 lletres en els
documents.

A can LibreOffice darrerament s'hi han afegit alguns locales francesos de
països africans, en tots els casos han usat com a identificador de llengua
'fr', 2 lletres, no pas el codi 'fra' de 3.

En el cas que ens ocupa, encara veig més absurd usar l'oci-ES, atès que ja
hi ha un codi occità en producció 'oc-FR' de la mateixa llengua, amb codi
de 2 lletres. Un altra, què passa si a can Apache OO implemente oci-ES i a
can LibreOffice oc-ES? i si alguna vegada s'afegeix el locale aranès a la
glibc/Linux?

Per acabar, el web de la Generalitat [2] usa el codi oc-ES.

Joan Montané

[1] https://tools.ietf.org/html/bcp47#section-2
[2] https://web.gencat.cat/oc/inici/

>
> [1] https://en.wikipedia.org/wiki/IETF_language_tag
> [2] https://sourceforge.net/p/apertium/svn/HEAD/tree/languages/
> [3] https://sourceforge.net/p/apertium/svn/HEAD/tree/trunk/
>
>
>
> --
> < Xavi Ivars >
> < http://xavi.ivars.me >
>
> Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
> _______________________________________________
> https://llistes.softcatala.org/mailman/listinfo/corrector
>
>
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20150515/52627569/attachment-0001.html>