[Recursos] Generació automàtica del recull de termes
Jordi Mas
jmas a softcatala.org
dij des 19 20:37:08 CET 2013
Ep gent,
Un cop el tema de les memòries de traducció bastant resolt i
completament automatitzat he començat a treballar en com solucionar la
generació del Recull de termes. El meu objectiu és crear un sistema que
produeix el recurs sense intervenció humana. No serà trivial.
Aquí hi ha una descripció de les primeres idees:
http://www.softcatala.org/wiki/Extracci%C3%B3_terminol%C3%B2gica
Tenim ja alguna cosa funcionant. Al principi i final dels HTML hi ha
documentació però la diferència entre les 4 proves és només quins corpus
usem (no dels algorismes):
1) http://recursos.softcatala.org/dev/terminology/all-glossary.html
2) http://recursos.softcatala.org/dev/terminology/all-tm-glossary.html
3) http://recursos.softcatala.org/dev/terminology/sc-glossary.html
4) http://recursos.softcatala.org/dev/terminology/sc-tm-glossary.html
Els termes estan ordenats de més popular a menys. Aquestes proves
inicials s'enfoquen en la selecció de termes com a primera part a
solucionar més que en que siguin una eina útil.
Malgrat queden moltes coses per resoldre, els primers resultats són
esperançadors. Si agafem el 4) glossari generat automàticament, veureu
que dels 100 primeres termes un 74% dels termes coincideixen amb el
Recull. I dels que no, hi ha molts que per un bon motiu (yes, no).
Veureu que aquesta eina també obre la porta a millorar la terminologia
emprada ja que dóna molta visibilitat d'incoherències.
Si teniu preguntes inicials o suggeriments comencem a parlar. La meva
estimació inicial és que trigarem de 3 a 6 mesos a resoldre aquest problema.
Atentament,
Jordi,
--
Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/
Planet Softcatalà -> http://planeta.softcatala.org
Més informació sobre la llista de correu Recursos