[Recursos] Actualitzada versió de desenvolupament de recursos- 8 de juliol 2015
Jordi Mas
jmas a softcatala.org
dic jul 8 09:05:20 CEST 2015
Ep gent,
Alguns canvis que hem estat treballant per
https://www.softcatala.org/recursos-dev/
1. Hem integrat als informes de qualitat
(https://www.softcatala.org/recursos-dev/memories.html) noves regles de
Pology que hem creat i que contribuirem a upstream:
- Detecció de noms de llengües incorrectes[1]. Hi ha una descripció
acurada del projecte aquí[2].
- Detecció de errades en els formatadors de hora i dia[3].
En Josep Ma. també ha estat treballant la reducció de falsos positius en
les regles del Pology actuals.
2. Estàndards ISO
Com a part de recursos ara generarem els llistats ISO més rellevants
directament dels PO del Translation Project per tenir-los com a
referència. De fet, tenim pendent que es publiquin esmenes[4].
La configuració de nous ISO al llistat és molt senzilla[5].
Aquí ho podeu veure:
https://www.softcatala.org/recursos-dev/llistats_iso.html
3. Wikidata
Les webs de la fundació MediaWiki (Viquipèdia, etc) les usem regularment
com a font de referència. Per exemple, alhora de buscar com tradueixen
noms de països, llengües, etc.
Des d'aquesta setmana hem començat a importar part del contingut com si
fos un projecte de traducció. El que fem és[6]:
1) Llegir el 56GB d'informació de WikiData
2) Escollir els termes que apareixen a la memòria
3) Crear un PO amb els resultats i integrar-lo com si fos un projecte[7]
Ara mateix importem uns 11.000 termes. Hi ha molts més, però per
processar els 54GB de text és necessiten uns dies.
El primer intent sobre el punt 2) va ser importar per categories però
les dades de la Wikidata està lluny de tenir un sistema de
categorització que podem usar.
Wikidata té dos conceptes (labels), el nom de l'article, i la descripció
(un text més llarg que defineix el concepte). Per ara només importem el
terme però aviat faré proves per importar part de la definició per
tenir-ho a la memòria.
Qualsevol comentari és benvingut
Atentament,
Jordi
[1]
https://github.com/Softcatala/catalan-pology-rules/blob/master/iso_639.rules
[2] https://www.softcatala.org/wiki/Usuari:Jmas/Lleng%C3%BCes_i_pa%C3%AFsos
[3]
https://github.com/Softcatala/catalan-pology-rules/blob/master/date-format.rules
[4]
https://github.com/Softcatala/catalan-pology-rules/blob/master/isos/iso_639-3.57.ca-canvis.txt
[5]
https://github.com/Softcatala/translation-memory-tools/blob/master/src/isolists/iso-files.json
[6]
https://github.com/Softcatala/translation-memory-tools/blob/master/source-pos/wikidata/json-to-po.py
[7]
https://github.com/Softcatala/translation-memory-tools/blob/master/source-pos/wikidata/wikidata.po
--
Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/
Planet Softcatalà -> http://planeta.softcatala.org
Més informació sobre la llista de correu Recursos