[Corrector] Codificació

Xavi Torres torresaran a hotmail.com
div maig 15 17:25:43 CEST 2015


No sabia que pogués portar tans problemes un simple codi XD.

Jo també m'estimo més el oc-ES però ja començo a estar cansat de batallar amb això.

A veure que diuen de OpenOffice/LibreOffice.

Gràcies a tots

Date: Fri, 15 May 2015 10:22:18 +0200
From: joan a montane.cat
To: corrector a llistes.softcatala.org
Subject: Re: [Corrector] Codificació



El dia 14 de maig de 2015, 16:34, Xavi Ivars <xavi.ivars a gmail.com> ha escrit:
Només un parell d'apunts al que ha comentat Joan

El dia 14 de maig de 2015, 14:21, Joan Montané <joan a montane.cat> ha escrit:
problemes? prou, els asturians (codi ast) et podrien explicar una pel·lícula sencera. Per poc que puguis, fuig-ne, :)

A veure... el cas de l'aranès és molt peculiar. El codi de llengua és clar que li toca 'oc', per tant el locale hauria de ser 'oc-ES', però no hi ha cap tradició d'implementar l'aranès (separat de l'occità) en el món tecnològic. Si hi sumem la pròpia problemàtica de l'occità deguda a una separació inicial entre gascó i occità.. doncs encara pitjor. Segons el meu parer, tens un problema de manca de tradició tecnològica en aranès, i de base poblacional significativa en relació a la població total occitanòfona. Com a gran avantatge, la Vall d'Aran és l'únic lloc on l'occità és oficial, encara que això no hagi servit per a res en el món digital (Generalitat, on ets?)


Apertium ja separa "occita" (entés com occità llenguadocià) i "aranés" (entés com a occità gascó). I de fet, es va fer en un projecte finançat per la Generalitat de Catalunya. 
Suposo que tu, Xavier, deus treballar sol, i que el teu objectiu és implementar l'aranès en els paquets ofimàtics tan aviat com sigui possible i de forma definitiva. Has valorat l'opció de no separar el codi respecte l'occità?

M'explico. En català, podríem usar els codis ca-ES, ca-AD, ca-FR o ca-IT (ara també el codi ca-ES-valencia), tots ells reconeguts, però sempre hem usat només, el codi "ca-ES" per als documents. Entre altres coses per motius pràctics, i perquè és el codi usat al món Microsoft i suportat per altres fabricants. Anàlogament, el codi suportat pels fabricants per a l'occità és l'oc-FR. La part d'estat del codi és gairebé transparent per a l'usuari, fixa't que a l'AOO i al LibreOffice no surt "Occità (França)", només apareix "Occità", i ara que no tenim francs ni pessetes, la moneda tampoc molesta.

Potser una solució fàcil seria el que fèiem nosaltres per al valencià. Podeu usar el locale de l'occità (oc-FR) i afegir-hi manualment un diccionari amb les paraules araneses. El LibreOffice (també l'AOO) usarà els dos diccionaris per a corregir (l'occità general i l'aranès). Desconec si aquesta opció seria satisfactòria per a vosaltres, atès que caldria instal·lar una extensió manualment i donaria per bones les formes de l'occità general. Com a gran avantatge, la interfície es mostraria en occità.

Si vols un locale propi per l'aranès, segueixo pensant que el codi 'oc-ES' és el correcte, no veig perquè us "obliguen" a usar el codi "oci". Sempre que hi ha un codi de 2 lletres (i en aquest cas existeix), s'ha d'usar el de 2 lletres.

Això tampoc és totalment cert. El codi ISO 639-3 (de tres lletres) no s'ha d'utilitzar només quan no existeix un codi equivalent ISO 639-1 (de dos lletres). Si fos així, totes les llengües que apareixen al 639-1 no apareixerien al 639-3. 
De fet és al contrari, 639-3 és "l'evolució natural" del 639-1: ja que és un "supergrup" del primer estàndar. De fet, BCP-47 [1] (que està implementat per LibreOffice) admet tant codis de llengua de dos o tres lletres, sense problema. Una altra cosa és que la implementació de l'estàndard no siga correcta.
I, de nou, Apertium ha començat a "migrar" dels codis de dos als de tres lletres: tots els nous paquets d'idioma [2] utilitzen els codis de 3 lletres, i molts parells de llengües ja han migrat a aquestos codis [3], per consistència (i no deixar als asturians abandonats, sinó tindre tot en 3 lletres)
Això no vol dir que no hi hagen inconvenients (Android, per exemple, no permet els codis de 3 lletres), però pel que respecta a LibreOffice, no hauria d'importar. I si són els desenvolupadors de LibO els que suggereixen utilitzar el de 3 possiblement siga pel mateix: començar a migrar cap als codis de tres lletres.

Xavier,

entenc el que indiques però, a la pràctica, s'usa el codi de 2 lletres si existeix. Especialment si l'identificador de llengua s'insereix en les metadadades del document/text, o n'és un atribut. Simplement perquè la sintaxi del BCP 47 és una extensió/ampliació del sistema tradicional xx-YY (2 lletres per a llengua i 2 per a estat) i n'és compatible cap a enrera. Per tant, dubto que s'abandonin mai els codis de 2 lletres i, encara que es fes, caldria mantenir la compatibiltat amb els codis de 2 perquè es troben a un bon nombre de documents.

De fet, al web del BCP 47 [1] hi indica:

language      = 2*3ALPHA            ; shortest ISO 639 codeÉs a dir, el codi més curt de la família ISO639. I, fins on tinc coneixement, aquesta és la pràctica del fabricants (Microsoft, Google, CLDR, Linux...). Sempre que hi ha un codi de 2, s'usa el de 2, i, si no existeix, doncs el de 3.


A l'apertium poden usar els codis de 3 lletres, evidentment, però, corregeix-me si m'equivoco, no treballen amb les metadades del documents html/odt. Simplement usen els codis per a identificar els paquets de llengua, no per a declarar la llengua dels documents o del text. Si aquest fos el cas, segurament haurien d'usar els codis de 2 lletres en els documents.

A can LibreOffice darrerament s'hi han afegit alguns locales francesos de països africans, en tots els casos han usat com a identificador de llengua 'fr', 2 lletres, no pas el codi 'fra' de 3.

En el cas que ens ocupa, encara veig més absurd usar l'oci-ES, atès que ja hi ha un codi occità en producció 'oc-FR' de la mateixa llengua, amb codi de 2 lletres. Un altra, què passa si a can Apache OO implemente oci-ES i a can LibreOffice oc-ES? i si alguna vegada s'afegeix el locale aranès a la glibc/Linux?

Per acabar, el web de la Generalitat [2] usa el codi oc-ES.

Joan Montané

[1] https://tools.ietf.org/html/bcp47#section-2
[2] https://web.gencat.cat/oc/inici/

[1] https://en.wikipedia.org/wiki/IETF_language_tag
[2] https://sourceforge.net/p/apertium/svn/HEAD/tree/languages/
[3] https://sourceforge.net/p/apertium/svn/HEAD/tree/trunk/
 
-- 
< Xavi Ivars >
< http://xavi.ivars.me >


Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:

_______________________________________________

https://llistes.softcatala.org/mailman/listinfo/corrector





Si vols canviar la subscripció o donar-te de baixa, fes-ho des de:
_______________________________________________
https://llistes.softcatala.org/mailman/listinfo/corrector 		 	   		  
-------------- part següent --------------
Un document HTML ha estat eliminat...
URL: <http://llistes.softcatala.org/pipermail/corrector/attachments/20150515/221d942f/attachment.html>


Més informació sobre la llista de correu Corrector