martes, 8 de enero de 2013

Cadenas lexicas y grafos de cohesion


La aproximación más aceptada para la representación de la cohesión textual son los llamados grafos de cohesión. Como ya se ha mencionado, dentro
de un documento, las palabras y oraciones se encuentran conectadas entre
sí por medio de distintos tipos de relaciones. Estas relaciones se pueden representar en una estructura de grafo, en el que los vértices son los distintos
elementos textuales (típicamente oraciones) y los arcos representan las relaciones entre ellos. Skorokhod’ko (1972) propone un método de extracción
de oraciones que incluye la construcción de una estructura semántica para
el documento utilizando un grafo de este tipo, en el que los arcos representan relaciones de repetición, hiponimia, sinonimia o referencias a palabras
relevantes. La idea subyacente es que las oraciones más significativas son
aquellas que están relacionadas con un mayor número de otras oraciones y
son las primeras candidatas a la extracción. Mani (2001) presenta esta misma idea con el nombre de Suposición de la Conexión de un Grafo (Graph
Connectivity Assumption). En Salton et al. (1997), las unidades consideradas como nodos del grafo son párrafos en lugar de oraciones, y las relaciones
indican la similitud entre las palabras de los párrafos.
Son muchos los trabajos recientes que utilizan las técnicas descritas para
capturar las relaciones implícitas entre las unidades textuales y mantener
así la cohesión del resumen generado. En este sentido, cabe mencionar el
trabajo de Reeve, Han y Brooks (2007), que supone una adaptación del
método de las cadenas léxicas para generar resúmenes de documentos biomédicos. Para ello, en lugar de trabajar con términos, el texto se traduce a
conceptos del UMLS (Unified Medical Language System, ver Sección 3.1.3)
que posteriormente se encadenan entre sí, de tal forma que cada cadena
constituye una lista de conceptos que pertenecen al mismo tipo semántico
en UMLS. Cada cadena se puntúa multiplicando la frecuencia con la que su
concepto más frecuente aparece en el documento por el número de conceptos que componen la cadena. Las puntuaciones obtenidas se utilizan para
determinar la cadena de conceptos más “fuerte” (i.e. aquella que, con una
mayor probabilidad, representa el tema principal del documento). González34 Capítulo 2. Trabajo Previo
y Fuentes (2009) de nuevo presentan una adaptación del método de las cadenas léxicas. Su aportación consiste en considerar nuevas relaciones para
medir la cohesión interna de las cadenas: la relación “extra-fuerte”, la relación “fuerte” y la relación “media-fuerte”. A la hora de puntuar las cadenas,
se tienen en cuenta distintas heurísticas, como su longitud, su posición de
inicio en el documento o el tipo de relaciones que enlazan a las palabras que
la componen. En función de su puntuación, las cadenas se clasifican en uno
de los tres tipos siguientes: “fuerte”, “media” y “débil”. Para construir el
resumen, las oraciones se seleccionan utilizando las relaciones fuertes pero,
en caso de no ser suficientes para alcanzar el ratio de compresión deseado,
se acude al resto de relaciones.

No hay comentarios:

Publicar un comentario