[Recursos] Generació automàtica del recull de termes

Jordi Mas jmas a softcatala.org
dij des 19 20:37:08 CET 2013


Ep gent,

Un cop el tema de les memòries de traducció bastant resolt i 
completament automatitzat he començat a treballar en com solucionar la 
generació del Recull de termes. El meu objectiu és crear un sistema que 
produeix el recurs sense intervenció humana. No serà trivial.

Aquí hi ha una descripció de les primeres idees:
http://www.softcatala.org/wiki/Extracci%C3%B3_terminol%C3%B2gica

Tenim ja alguna cosa funcionant. Al principi i final dels HTML hi ha 
documentació però la diferència entre les 4 proves és només quins corpus 
usem (no dels algorismes):

1) http://recursos.softcatala.org/dev/terminology/all-glossary.html
2) http://recursos.softcatala.org/dev/terminology/all-tm-glossary.html
3) http://recursos.softcatala.org/dev/terminology/sc-glossary.html
4) http://recursos.softcatala.org/dev/terminology/sc-tm-glossary.html

Els termes estan ordenats de més popular a menys. Aquestes proves 
inicials s'enfoquen en la selecció de termes com a primera part a 
solucionar més que en que siguin una eina útil.

Malgrat queden moltes coses per resoldre, els primers resultats són 
esperançadors. Si agafem el 4) glossari generat automàticament, veureu 
que dels 100 primeres termes un 74% dels termes coincideixen amb el 
Recull. I dels que no, hi ha molts que per un bon motiu (yes, no).

Veureu que aquesta eina també obre la porta a millorar la terminologia 
emprada ja que dóna molta visibilitat d'incoherències.

Si teniu preguntes inicials o suggeriments comencem a parlar. La meva 
estimació inicial és que trigarem de 3 a 6 mesos a resoldre aquest problema.

Atentament,

Jordi,
-- 
Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/
Planet Softcatalà -> http://planeta.softcatala.org


Més informació sobre la llista de correu Recursos