Decisió sobre el glossaris - formes flexionades vs no flexionades

Ep Cal decidir si als nous glossaris[1], volem incloure les formes flexionades (desa, s'està desant, opció, opcions, etc) o bé si volem incloure la forma sense flexionar (desar, opció, opcions). Els glossaris més acadèmics (TERMCAT, Recull de Softcatalà, reculls de lèxics, etc) usen les formes no flexionades i els glossaris d'aplicacions (Apple, Microsoft, etc) tendeixen a usar les formes flexionades. En la meva opinió personal, els glossaris amb formes no flexionades són millors pels humans (per exemple, s'inclou l'infinitiu en el cas dels verbs) i els de formes no flexionades per eines (inclou la forma conjugada) que permet usar-la directament o recuperar la traducció. En un glossari generat computacionalment (com [1]), generar un glossari no flexionat requereix tècniques de processament del llenguatge natural (determinar el lexema, etc) i és una inversió significant de temps. No estic segur tampoc del valor que aporta a dia d'avui. En la meva opinió personal, el Recull de Termes tenia molt de sentit quan la terminologia en català estava formant-se (1997 - 2010). En la situació d'avui en dia, amb una terminologia bastant fixada, jo m'inclino per publicar una versió flexionada, explicant que és un reflex del que usem. Aquesta és una decisió important. Què en penseu? Atentament, Jordi, [1] http://recursos.softcatala.org/dev/terminologia/sc-glossary.html -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org

El dia 30 desembre de 2013 22.31, Jordi Mas <jmas@softcatala.org> ha escrit:
En un glossari generat computacionalment (com [1]), generar un glossari no flexionat requereix tècniques de processament del llenguatge natural (determinar el lexema, etc) i és una inversió significant de temps. No estic segur tampoc del valor que aporta a dia d'avui.
Aquesta és la diferència. En un glossari fet per humans, té sentit indicar
només la forma base, perquè és més compacte i requereix menys feina. Els humans interpretem ràpidament que si hi apareix copy, to|copiar|v. totes les formes flexionades "van igual". En un de generat computacionalment és justament a la inversa.
Aquesta és una decisió important.
Què en penseu?
Jordi, ¿podríem afegir informació manualment per a entrades concretes? per exemple, marcar manualment alguns verbs com a transitius (o intransitius) i el gènere d'algun terme confictiu. El repte de posar el glossari en format "human-friendly" és temptador, però no crec que pagui la pena invertir-hi tants recursos com caldrien per a fer-ho. Joan Montané

Hola Joan,
El dia 30 desembre de 2013 22.31, Jordi Mas <jmas@softcatala.org <mailto:jmas@softcatala.org>> ha escrit:
En un glossari generat computacionalment (com [1]), generar un glossari no flexionat requereix tècniques de processament del llenguatge natural (determinar el lexema, etc) i és una inversió significant de temps. No estic segur tampoc del valor que aporta a dia d'avui.
Aquesta és la diferència. En un glossari fet per humans, té sentit indicar només la forma base, perquè és més compacte i requereix menys feina. Els humans interpretem ràpidament que si hi apareix copy, to|copiar|v. totes les formes flexionades "van igual". En un de generat computacionalment és justament a la inversa.
És la meva opinió també però no sóc cap expert en el tema.
Jordi, ¿podríem afegir informació manualment per a entrades concretes? per exemple, marcar manualment alguns verbs com a transitius (o intransitius) i el gènere d'algun terme confictiu.
Hi ha dues opcions: 1) Sí, podem mantenir manualment una llista on tenim aquests termes i incloure en l'exportació final del glossari. 2) Intentar automatizar-ho Sabem de quants termes estem parlant? Com presentaríem aquesta informació a l'usuari?
El repte de posar el glossari en format "human-friendly" és temptador, però no crec que pagui la pena invertir-hi tants recursos com caldrien per a fer-ho.
Per altra banda penso que crea una major distància entre el que fem nosaltres i el que fa el TERMCAT, que fins ara hi havia força semblança i superposició. Parlant del TERMCAT, actualment estem marcant les formes recomanades[1] per ells. Ho publiquen sense flexionar[2]. En el nostre glossari, si hi ha coincidència en l'anglès i el català marquem la forma en color verd, si només en l'anglès afegim la seva forma (que alguns cops és flexionada). Veure l'entrada "automatic" per exemple. Independement del que fem en el glossari, potser si caldrà automatitzar la flexió del seu per tenir millor coincidència. Tampoc ho veig molt molt prioritari. Atentament, Jordi, [1] http://recursos.softcatala.org/dev/terminologia/sc-glossary.html [2] https://github.com/Softcatala/translation-memory-tools/blob/master/terminolo... -- Jordi Mas i Hernàndez -Bloc: http://gent.softcatala.org/jmas/bloc/ Planet Softcatalà -> http://planeta.softcatala.org
participants (2)
-
Joan Montané
-
Jordi Mas