sábado, 9 de febrero de 2013

Modelos de máxima entropía para detección de redundancia


En nuestro sistema, la informacion linguistica se representa en forma de vectores de atributos que identifican las ocurrencias de ciertos datos dentro de contextos que contienen ambig¨uedades ling¨u´ısticas. Entendemos por contexto al texto que acompa˜na a la ambig¨uedad y que es relevante para el propio proceso de desambiguaci´on. Son usuales los atributos relacionados con palabras cercanas, lemas, catego ´ıas sint´acticas, informaci´on de dominio, palabras clave, relaciones gramaticales, etc.
Este sistema se utiliza como n´ucleo de Reentrenamiento. Para cada sentido de una palabra se definen dos clasificadores ME d´ebiles basados en diferentes conjuntos de atributos
ling¨u´ısticos. La diferencia principal con cotraining es que las dos vistas se usan en paralelo con el objetivo de obtener un consenso sobre qu´e etiqueta asignar a un contexto particular. Otros filtros adicionales permitir´an, finalmente, incorporar algunos de estos contextos en el siguiente ciclo de entrenamiento.

http://adimen.si.ehu.es/~rigau/publications/sepln05-srp.pdf

No hay comentarios:

Publicar un comentario