Actualitzada versió de desenvolupament de recursos- 8 de juliol 2015

Ep gent, Alguns canvis que hem estat treballant per https://www.softcatala.org/recursos-dev/ 1. Hem integrat als informes de qualitat (https://www.softcatala.org/recursos-dev/memories.html) noves regles de Pology que hem creat i que contribuirem a upstream: - Detecció de noms de llengües incorrectes[1]. Hi ha una descripció acurada del projecte aquí[2]. - Detecció de errades en els formatadors de hora i dia[3]. En Josep Ma. també ha estat treballant la reducció de falsos positius en les regles del Pology actuals. 2. Estàndards ISO Com a part de recursos ara generarem els llistats ISO més rellevants directament dels PO del Translation Project per tenir-los com a referència. De fet, tenim pendent que es publiquin esmenes[4]. La configuració de nous ISO al llistat és molt senzilla[5]. Aquí ho podeu veure: https://www.softcatala.org/recursos-dev/llistats_iso.html 3. Wikidata Les webs de la fundació MediaWiki (Viquipèdia, etc) les usem regularment com a font de referència. Per exemple, alhora de buscar com tradueixen noms de països, llengües, etc. Des d'aquesta setmana hem començat a importar part del contingut com si fos un projecte de traducció. El que fem és[6]: 1) Llegir el 56GB d'informació de WikiData 2) Escollir els termes que apareixen a la memòria 3) Crear un PO amb els resultats i integrar-lo com si fos un projecte[7] Ara mateix importem uns 11.000 termes. Hi ha molts més, però per processar els 54GB de text és necessiten uns dies. El primer intent sobre el punt 2) va ser importar per categories però les dades de la Wikidata està lluny de tenir un sistema de categorització que podem usar. Wikidata té dos conceptes (labels), el nom de l'article, i la descripció (un text més llarg que defineix el concepte). Per ara només importem el terme però aviat faré proves per importar part de la definició per tenir-ho a la memòria. Qualsevol comentari és benvingut Atentament, Jordi [1] https://github.com/Softcatala/catalan-pology-rules/blob/master/iso_639.rules [2] https://www.softcatala.org/wiki/Usuari:Jmas/Lleng%C3%BCes_i_pa%C3%AFsos [3] https://github.com/Softcatala/catalan-pology-rules/blob/master/date-format.r... [4] https://github.com/Softcatala/catalan-pology-rules/blob/master/isos/iso_639-... [5] https://github.com/Softcatala/translation-memory-tools/blob/master/src/isoli... [6] https://github.com/Softcatala/translation-memory-tools/blob/master/source-po... [7] https://github.com/Softcatala/translation-memory-tools/blob/master/source-po... -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org

El Dimecres 8 Juliol 2015, a les 09:05:20, Jordi Mas va escriure:
Ep gent,
Alguns canvis que hem estat treballant per https://www.softcatala.org/recursos-dev/
1. Hem integrat als informes de qualitat (https://www.softcatala.org/recursos-dev/memories.html) noves regles de Pology que hem creat i que contribuirem a upstream:
- Detecció de noms de llengües incorrectes[1]. Hi ha una descripció acurada del projecte aquí[2].
- Detecció de errades en els formatadors de hora i dia[3].
En Josep Ma. també ha estat treballant la reducció de falsos positius en les regles del Pology actuals.
2. Estàndards ISO
Com a part de recursos ara generarem els llistats ISO més rellevants directament dels PO del Translation Project per tenir-los com a referència. De fet, tenim pendent que es publiquin esmenes[4].
La configuració de nous ISO al llistat és molt senzilla[5].
Aquí ho podeu veure: https://www.softcatala.org/recursos-dev/llistats_iso.html
3. Wikidata
Les webs de la fundació MediaWiki (Viquipèdia, etc) les usem regularment com a font de referència. Per exemple, alhora de buscar com tradueixen noms de països, llengües, etc.
Des d'aquesta setmana hem començat a importar part del contingut com si fos un projecte de traducció. El que fem és[6]:
1) Llegir el 56GB d'informació de WikiData 2) Escollir els termes que apareixen a la memòria 3) Crear un PO amb els resultats i integrar-lo com si fos un projecte[7]
Ara mateix importem uns 11.000 termes. Hi ha molts més, però per processar els 54GB de text és necessiten uns dies.
El primer intent sobre el punt 2) va ser importar per categories però les dades de la Wikidata està lluny de tenir un sistema de categorització que podem usar.
Wikidata té dos conceptes (labels), el nom de l'article, i la descripció (un text més llarg que defineix el concepte). Per ara només importem el terme però aviat faré proves per importar part de la definició per tenir-ho a la memòria.
Qualsevol comentari és benvingut
Atentament,
Jordi
Hola Ara que ho dius. Alguna indicació sobre on mirar per a que el LT respecti les entitats? Tinc vacances i pensava en repassar la documentació del KDE - desprès de tantes correccions a la IGU es troba un xic desfasada-. També guaitaré les guies d'estil. ;-) Toni

Hola Toni,
Hola
Ara que ho dius. Alguna indicació sobre on mirar per a que el LT respecti les entitats? Tinc vacances i pensava en repassar la documentació del KDE - desprès de tantes correccions a la IGU es troba un xic desfasada-.
Entenc per entitats et refereixes a etiquetes bé XML o HTML. En Josep MA. va detectar un problema fa temps que vam esmenar: https://llistes.softcatala.org/pipermail/recursos/2015-May/000289.html Als informes de qualitat sembla que surten bé: https://www.softcatala.org/recursos/quality/kde.html Si veus alguna cosa que no surt bé ens ho dius i ho mirem. Gràcies, Jordi, -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org

El Divendres 10 Juliol 2015, a les 17:44:50, Jordi Mas va escriure:
Hola Toni,
Hola
Ara que ho dius. Alguna indicació sobre on mirar per a que el LT respecti
les entitats? Tinc vacances i pensava en repassar la documentació del KDE - desprès de tantes correccions a la IGU es troba un xic desfasada-.
Entenc per entitats et refereixes a etiquetes bé XML o HTML.
En Josep MA. va detectar un problema fa temps que vam esmenar: https://llistes.softcatala.org/pipermail/recursos/2015-May/000289.html
Als informes de qualitat sembla que surten bé: https://www.softcatala.org/recursos/quality/kde.html
Si veus alguna cosa que no surt bé ens ho dius i ho mirem. [...]
Hola, suposo que el Toni es refereix a les entitats de la documentació del projecte KDE, que els traductors defineixen a [1]. Són entitats del tipus «& + text + ;» (p. ex.&BDR;) que en el moment de compilar la documentació se substitueixen pel seu valor predefinit, en aquest cas «botó dret del ratolí». La qüestió és que a l'eina de qualitat, primer s'eliminen els acceleradors (_&~). I per les entitats definides pel traductor, l'ampersand inicial també s'elimina. Llavors, el LT detecta que manca un espai darrere del punt i coma final de l'entitat. Per exemple: Fitxer analitzat: kde/documentation/docmessages/applications/dolphin.po- results.xml [...] Missatge: Falta un espai. Suggeriments: ; . ...en la capçalera d'una columna amb el BDR;. Al menú contextual de la línia de capç... [...] No sé si hi ha altres projectes amb aquest mateix problema. En tot cas, la solució seria preprocessar els fitxers per substituir aquestes entitats pels seus valors (a partir de la seva definició indicada a [1]), abans de l'eliminació dels acceleradors. De moment, crec que es pot conviure amb aquest problema, però si la solució és senzilla d'implementar, els informes de qualitat quedarien més nets. Salutacions, Josep Ma. Ferrer PD: Disculpeu que no hagi dit res abans, però he tingut problemes amb el correu. [1] http://quickgit.kde.org/?p=kdelibs.git&a=blob&h=b1d27a50e8b5622136eb6b48c0b29935a8cb4895&f=kdoctools%2Fcustomization%2Fca%2Fuser.entities&o=plain

El 11/07/2015 a les 11:04, Josep Ma. Ferrer ha escrit:
El Divendres 10 Juliol 2015, a les 17:44:50, Jordi Mas va escriure:
Hola Toni,
Hola
Ara que ho dius. Alguna indicació sobre on mirar per a que el LT respecti
les entitats? Tinc vacances i pensava en repassar la documentació del KDE - desprès de tantes correccions a la IGU es troba un xic desfasada-.
Entenc per entitats et refereixes a etiquetes bé XML o HTML.
En Josep MA. va detectar un problema fa temps que vam esmenar: https://llistes.softcatala.org/pipermail/recursos/2015-May/000289.html
Als informes de qualitat sembla que surten bé: https://www.softcatala.org/recursos/quality/kde.html
Si veus alguna cosa que no surt bé ens ho dius i ho mirem. [...]
Hola,
suposo que el Toni es refereix a les entitats de la documentació del projecte KDE, que els traductors defineixen a [1]. Són entitats del tipus «& + text + ;» (p. ex.&BDR;) que en el moment de compilar la documentació se substitueixen pel seu valor predefinit, en aquest cas «botó dret del ratolí».
La qüestió és que a l'eina de qualitat, primer s'eliminen els acceleradors (_&~). I per les entitats definides pel traductor, l'ampersand inicial també s'elimina. Llavors, el LT detecta que manca un espai darrere del punt i coma final de l'entitat. Per exemple:
Fitxer analitzat: kde/documentation/docmessages/applications/dolphin.po- results.xml [...] Missatge: Falta un espai. Suggeriments: ; .
...en la capçalera d'una columna amb el BDR;. Al menú contextual de la línia de capç... [...]
No sé si hi ha altres projectes amb aquest mateix problema. En tot cas, la solució seria preprocessar els fitxers per substituir aquestes entitats pels seus valors (a partir de la seva definició indicada a [1]), abans de l'eliminació dels acceleradors.
De moment, crec que es pot conviure amb aquest problema, però si la solució és senzilla d'implementar, els informes de qualitat quedarien més nets.
Salutacions,
Josep Ma. Ferrer
Gràcies per l'aclariment Aquest és un exemple d'un problema molt comú que són les cadenes que es resolen en temps d'execució. Per exemple: - "Cannot open %s" - "Last modified on %a, %b %e, %Y at %I:%M%P" - "Welcome to %{SHORT_PRODUCT_NAME} - Created by gbrainy {0} - etc La casuística és gran i penso que no hi ha solució genèrica. Agafem com exemple "Cannot open %s". Es podria reemplaçar %s per un nom, un verb, un nom de fitxer, etc. Imaginem que ho remplacessim sempre per "cadena". Languagetool té en compte, entre altres coses, la categoria gramatical per indicar errors (és un corrector gramatical). Donaria errors en varies regles. Jo veig 3 possibles solucions: 1) No fer res ja que aquests informes es consulten poc i per pocs usuaris, probablement un cop per release. Potser es més senzill ignorar els falsos positius. 2) Que cada projecte pugui tenir un fitxer de text amb substitucions que s'apliquen com suggereix el Josep M i que cada equip el mantingui el seu. 3) Que es puguin deshabilitar regles del LanguageTool per projecte Si teniu cap altre idea comentem-la. Si teniu interès en experimentar amb les idees 2) o 3) puc muntar-ho en poc temps. Atentament, Jordi, -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org

El Dissabte 11 Juliol 2015, a les 18:12:51, Jordi Mas va escriure:
El 11/07/2015 a les 11:04, Josep Ma. Ferrer ha escrit:
El Divendres 10 Juliol 2015, a les 17:44:50, Jordi Mas va escriure:
Hola Toni,
Hola
Ara que ho dius. Alguna indicació sobre on mirar per a que el LT respecti
les entitats? Tinc vacances i pensava en repassar la documentació del KDE - desprès de tantes correccions a la IGU es troba un xic desfasada-.
Entenc per entitats et refereixes a etiquetes bé XML o HTML.
En Josep MA. va detectar un problema fa temps que vam esmenar: https://llistes.softcatala.org/pipermail/recursos/2015-May/000289.html
Als informes de qualitat sembla que surten bé: https://www.softcatala.org/recursos/quality/kde.html
Si veus alguna cosa que no surt bé ens ho dius i ho mirem. [...]
Hola,
suposo que el Toni es refereix a les entitats de la documentació del
projecte KDE, que els traductors defineixen a [1]. Són entitats del tipus «& + text + ;» (p. ex.&BDR;) que en el moment de compilar la documentació se substitueixen pel seu valor predefinit, en aquest cas «botó dret del ratolí».> La qüestió és que a l'eina de qualitat, primer s'eliminen els
acceleradors (_&~). I per les entitats definides pel traductor, l'ampersand inicial també s'elimina. Llavors, el LT detecta que manca un espai darrere del punt i coma final de l'entitat. Per exemple:
Fitxer analitzat: kde/documentation/docmessages/applications/dolphin.po- results.xml [...] Missatge: Falta un espai. Suggeriments: ; .
...en la capçalera d'una columna amb el BDR;. Al menú contextual de la línia de capç... [...]
No sé si hi ha altres projectes amb aquest mateix problema. En tot cas,
la solució seria preprocessar els fitxers per substituir aquestes entitats pels seus valors (a partir de la seva definició indicada a [1]), abans de l'eliminació dels acceleradors.
De moment, crec que es pot conviure amb aquest problema, però si la
solució és senzilla d'implementar, els informes de qualitat quedarien més nets.
Salutacions,
Josep Ma. Ferrer
Gràcies per l'aclariment
Aquest és un exemple d'un problema molt comú que són les cadenes que es resolen en temps d'execució.
Per exemple:
- "Cannot open %s" - "Last modified on %a, %b %e, %Y at %I:%M%P" - "Welcome to %{SHORT_PRODUCT_NAME} - Created by gbrainy {0} - etc
La casuística és gran i penso que no hi ha solució genèrica. Agafem com exemple "Cannot open %s". Es podria reemplaçar %s per un nom, un verb, un nom de fitxer, etc. Imaginem que ho remplacessim sempre per "cadena". Languagetool té en compte, entre altres coses, la categoria gramatical per indicar errors (és un corrector gramatical). Donaria errors en varies regles.
Jo veig 3 possibles solucions:
1) No fer res ja que aquests informes es consulten poc i per pocs usuaris, probablement un cop per release. Potser es més senzill ignorar els falsos positius. 2) Que cada projecte pugui tenir un fitxer de text amb substitucions que s'apliquen com suggereix el Josep M i que cada equip el mantingui el seu. 3) Que es puguin deshabilitar regles del LanguageTool per projecte
Si teniu cap altre idea comentem-la.
Si teniu interès en experimentar amb les idees 2) o 3) puc muntar-ho en poc temps.
Atentament,
Jordi,
Hola Jordi, La 2 és la que necessitem. D'aquesta manera, cada projecte hi podrà dir la seva. Al KDE es podria fer automàticament amb els fitxers del kdoctools -molt còmode-, però no ens molestarà mantenir aquest fitxer. El fitxer user.entities que adreça en Josep Ma. és una mostra del format que podria tenir. Els avantatges més clars: * Els noms i adreces de correu les traduirem a una mateixa (privacitat). * Les entitats ocultes també es traduiran (n'hi ha). * Veurem què falla amb tota celeritat. * Es passarà l'escombra més sovint per fer net. Toni
participants (3)
-
Antoni Bella Pérez
-
Jordi Mas
-
Josep Ma. Ferrer