En nuestro sistema, la informacion linguistica se representa en forma de vectores de atributos que identifican las ocurrencias de ciertos datos dentro de contextos que contienen ambig¨uedades ling¨u´ısticas. Entendemos por contexto al texto que acompa˜na a la ambig¨uedad y que es relevante para el propio proceso de desambiguaci´on. Son usuales los atributos relacionados con palabras cercanas, lemas, catego ´ıas sint´acticas, informaci´on de dominio, palabras clave, relaciones gramaticales, etc.
Este sistema se utiliza como n´ucleo de Reentrenamiento. Para cada sentido de una palabra se definen dos clasificadores ME d´ebiles basados en diferentes conjuntos de atributos
ling¨u´ısticos. La diferencia principal con cotraining es que las dos vistas se usan en paralelo con el objetivo de obtener un consenso sobre qu´e etiqueta asignar a un contexto particular. Otros filtros adicionales permitir´an, finalmente, incorporar algunos de estos contextos en el siguiente ciclo de entrenamiento.
http://adimen.si.ehu.es/~rigau/publications/sepln05-srp.pdf
No hay comentarios:
Publicar un comentario