Generació automàtica del recull de termes

Ep gent, Un cop el tema de les memòries de traducció bastant resolt i completament automatitzat he començat a treballar en com solucionar la generació del Recull de termes. El meu objectiu és crear un sistema que produeix el recurs sense intervenció humana. No serà trivial. Aquí hi ha una descripció de les primeres idees: http://www.softcatala.org/wiki/Extracci%C3%B3_terminol%C3%B2gica Tenim ja alguna cosa funcionant. Al principi i final dels HTML hi ha documentació però la diferència entre les 4 proves és només quins corpus usem (no dels algorismes): 1) http://recursos.softcatala.org/dev/terminology/all-glossary.html 2) http://recursos.softcatala.org/dev/terminology/all-tm-glossary.html 3) http://recursos.softcatala.org/dev/terminology/sc-glossary.html 4) http://recursos.softcatala.org/dev/terminology/sc-tm-glossary.html Els termes estan ordenats de més popular a menys. Aquestes proves inicials s'enfoquen en la selecció de termes com a primera part a solucionar més que en que siguin una eina útil. Malgrat queden moltes coses per resoldre, els primers resultats són esperançadors. Si agafem el 4) glossari generat automàticament, veureu que dels 100 primeres termes un 74% dels termes coincideixen amb el Recull. I dels que no, hi ha molts que per un bon motiu (yes, no). Veureu que aquesta eina també obre la porta a millorar la terminologia emprada ja que dóna molta visibilitat d'incoherències. Si teniu preguntes inicials o suggeriments comencem a parlar. La meva estimació inicial és que trigarem de 3 a 6 mesos a resoldre aquest problema. Atentament, Jordi, -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org

El dia 19 desembre de 2013 20.37, Jordi Mas <jmas@softcatala.org> ha escrit:
Ep gent,
Un cop el tema de les memòries de traducció bastant resolt i completament automatitzat he començat a treballar en com solucionar la generació del Recull de termes. El meu objectiu és crear un sistema que produeix el recurs sense intervenció humana. No serà trivial.
Aquí hi ha una descripció de les primeres idees: http://www.softcatala.org/wiki/Extracci%C3%B3_terminol%C3%B2gica
Tenim ja alguna cosa funcionant. Al principi i final dels HTML hi ha documentació però la diferència entre les 4 proves és només quins corpus usem (no dels algorismes):
1) http://recursos.softcatala.org/dev/terminology/all-glossary.html 2) http://recursos.softcatala.org/dev/terminology/all-tm-glossary.html 3) http://recursos.softcatala.org/dev/terminology/sc-glossary.html 4) http://recursos.softcatala.org/dev/terminology/sc-tm-glossary.html
Els termes estan ordenats de més popular a menys. Aquestes proves inicials s'enfoquen en la selecció de termes com a primera part a solucionar més que en que siguin una eina útil.
Malgrat queden moltes coses per resoldre, els primers resultats són esperançadors. Si agafem el 4) glossari generat automàticament, veureu que dels 100 primeres termes un 74% dels termes coincideixen amb el Recull. I dels que no, hi ha molts que per un bon motiu (yes, no).
Veureu que aquesta eina també obre la porta a millorar la terminologia emprada ja que dóna molta visibilitat d'incoherències.
Si teniu preguntes inicials o suggeriments comencem a parlar. La meva estimació inicial és que trigarem de 3 a 6 mesos a resoldre aquest problema.
Jordi, em sembla una iniciativa apassionant, sincerament. He afegit un parell de suggeriments a la pàgina wiki, amb idees de com podríem resoldre alguna de les preguntes obertes. Anem parlant-ne. -- < Xavi Ivars > < http://xavi.ivars.me >

El dia 19 desembre de 2013 21.17, Xavi Ivars <xavi.ivars@gmail.com> ha escrit:
Veureu que aquesta eina també obre la porta a millorar la terminologia
emprada ja que dóna molta visibilitat d'incoherències.
Si teniu preguntes inicials o suggeriments comencem a parlar. La meva estimació inicial és que trigarem de 3 a 6 mesos a resoldre aquest problema.
Impressionant!!! Joan Montané
participants (3)
-
Joan Montané
-
Jordi Mas
-
Xavi Ivars