Trabajo de grado en procesamiento del lenguaje natural: Métodos de representación automática del conocimiento en la elaboración de resúmenes

Hemos considerado la clasificación en la automatización de resúmenes defendida por
Maria Pinto para explicar las líneas de investigación metodológicas del área de PLN,
agrupadas en tres grandes bloques:
-Métodos de extracción basados en la estructura superficial
-Métodos de sumarización, a medio camino entre resumen y extracto
-Métodos gráficos y relacionales
Pasamos a exponer brevemente las características y diferencias de cada bloque
mencionado.
3.1 Métodos de extracción basados en la estructura profunda
Caracterizados porque abordan el texto como cadenas de caracteres y apenas realizan un
análisis lingüístico. El documento final es un subconjunto de oraciones del texto.
Siguiendo a Paice, estos son los métodos estadísticos de extracción automática:
-Frecuencia de palabras
La selección de palabras clave realizada en atención a la frecuencia de repetición en la
frase.
-Palabras Clave del título
Selección sobre el título y encabezamientos, tras eliminar las palabras vacias.
-Localización de la información o posición en el texto
Lead method: Se considera que en cualquier texto lo importante aparece al
principio (o al final), se seleccionan las n primeras oraciones o párrafos.
Optimum position policy( OPP) : Las posiciones con mayor carga significativa
aparecen en posiciones dependientes del género, se precisa el aprendizaje automático de
las posiciones más prometedoras a nivel de párrafo y oración ( Lin,Hovy,1997 )
-Sintáctico
La extracción relacionada con la estructura sintáctica.
-Palabras temáticas importantes
La identificación de términos claves de contenido más frecuente o con frecuencia alta
en el documento que son escasas en el conjunto de documentos.-Términos o frases significativas (cue phrases)
La selección se apoya en una lista de términos indicativos que tienen un peso en la
selección de las frases se diferencian tres clases según la relevancia:
 Bonus phrases indicadores de términos con peso : Concluyendo.....,en
resumen.....,principalmente......
 Stigma phrases indicadores de términos de escaso peso: Dificilmente.....,
imposible.....no..., Null phrases indicadoras de frases irrelevantes para la
selección.:Por contra..
-Relacionales
La extracción de información relevante se consigue utilizando representaciones
semánticas del texto. Por otra parte, Edmundson (4) propone un método lógico
matemático para la asignación de valores numéricos a las frases. Plantea cuatro modos
de selección de frases: palabra clave (key), entrada (cue), título y emplazamiento. Al
evaluar los experimentos se constató que la selección por entrada, título y
emplazamiento tuvieron ventaja frente a los de palabra clave, por tanto se eliminó este
método de selección para resúmenes automáticos.
Otra combinatoria de métodos interesante es la propuesta por ANES (Sistema de
Extracción Automática de Noticias) en base a métodos estadístico/heurístico sobre los
términos, determinando las frases más representativas(5). El análisis estadístico del
corpus documental se realiza a partir de las frecuencias asignándoles un peso a cada
término y un identificador. Utiliza una ecuación de frecuencias para seleccionar las
frases que contienen las ideas principales mediante la suma de los pesos de los términos
que contienen cada frase y el sistema se decide por las que obtienen los pesos mayores.
En cuanto a los resultados del experimento fueron valorados por analistas con la
calificación de medianamente aceptables en cuanto a coherencia y cohesión.
Y por último dentro del grupo de métodos por extracción cabe mencionar el método
llamado de máxima frecuencia ó método de Knowledge Discovery (KD), en que se se
realiza un preproceso de documentos, tratando la eliminación de términos y datos el
texto original queda reducido a una secuencia de palabras, se analiza las máximas
secuencias de palabras más frecuentes para terminar con una clasificación y ordenación
de términos. Este método permite sobre un grupo de documentos encontrar una
frecuencia de palabras que es frecuente en una colección y a la vez de otra secuencia
frecuente mayor.(6) KD es un método que destaca en las técnicas de análisis inteligentes
en bases de datos automatizadas, cuya meta es derivar conocimiento de esas bases de
datos reales, aplicando patrones para la extracción de información.
3.2-Métodos de sumarización
Dado el extraordinario crecimiento exponencial de la información on-line, los usuarios
son víctimas de una sobrecarga informativa. Los sumarios entendidos como una forma
abreviada del contenido del documento pueden aliviar esta situación reduciendo de
manera considerable la información a leer por el usuario o investigador. Los sistemas
basados en la estructura del discurso o retórica incorporan cierto grado de creatividad y operan sobre las relaciones discursivas de cohesión y coherencia. Presentamos las
siguientes agrupaciones de métodos de sumarización:
- Métodos basados en la estructura discursiva o retórica
- Métodos basados en la estructura profunda
- Métodos basados en la estructura discursiva o retórica
Los sistemas basados en la cohesión (Barzilay,1997) relacionan los items de un texto, la
conectividad no estructural, repetición, referencia, cohesión léxica a través de selección
de las palabras.
Los sistemas basados en la coherencia (D.Marcu,1997-1999) consiguen relacionar los
segmentos del texto , los elementos del discurso están conectados a través de la
estructura semántica. Es una aproximación basada en la coherencia interna del texto,
consigue una buena calidad del resumen. Marcu, representa la estructura retórica del
texto y utiliza algoritmos de análisis retórico basado en un corpus compuesto por
marcadores de discurso y fragmentos textuales.
Plantillas
Los sistemas basados en plantillas (Gaizauslas-Wilks 1998) han sido utilizado en
extracción de noticias (prensa económica ), Reuter(Andersen1992-1994), artículos de
información financiera (Chong-Goh 1997), extracción automática de referencias
bibliográficas de patentes a texto completo ( Lawson1996), en este procesamiento del
lenguaje natural se cumplimentan plantillas estructuradas en patrones .
Plantillas Web
Altavista es un ejemplo de sistema de plantillas con frases relacionadas con el tema de
búsqueda para que el usuario escoja la opción más acertada.
Métodos basados en la estructura profunda
Concebido este procedimiento como un sistema experto basado en una red de
conocimientos básicos o redes semánticas representativas del contenido y aplicados al
texto, es un modelo semántico conceptual de generación de sumarios basado en las
teorías cognitivas.
FRUMP (7) es un programa para la generación de sumarios de artículos cortos. Está
cifrado sobre la base de hechos o conocimiento base que se usa para predecir
acontecimientos generales. El analizador textual está dirigido hacia las expectativas y la
interpretación del texto de entrada sobre la base de acontecimientos pronosticados,
realiza una nueva interpretación de la nueva situación y nuevas predicciones. La base de
conocimiento en la que actúa se estructura en guiones que contienen sólo los hechos
destacables que pueden ocurrir en una situación.
Otro sistema basado en inteligencia artificial para el análisis y la comprensión de textos
breves en dominios restringidos, generando representaciones semánticas en forma bien
de extractos o de sumarios es SCISOR (System for Conceptual Information
Summarization Organization and Retrieval) de Rau (8).Diseñado para procesar noticias cortas on-line sobre un tema del mundo empresarial
(transacciones de empresas y responsabilidad corporativa)extraídas de periódicos o
revistas como el Wall Street Journal. Permite una recuperación conceptual de la
información, de respuestas a cuestiones planteadas en lenguaje natural. Utiliza una
metodología KADS sistema experto de ingeniería del conocimiento, emplea
arquitectura BLACKBOARD o de pizarra para la representación cognitiva técnica de la
información en la resolución de problemas (Niggemeyer)
3.3-Métodos gráficos y relacionales
Salton diseñó un modelo de recuperación, conocido como espacio vectorial en el que las
unidades informativas se representan por grupos o vectores de términos conocidos como
clustering de documentos y pasajes. El sistema SMART permite la descomposición y
estructuración de los documentos, segmentos de longitud: secciones, grupos de frases
adyacentes o frases sueltas. Se establecen relaciones entre textos y pasajes de textos
para generar mapas relacionales que muestren las similitudes de los textos y pasajes que
han superado un determinado valor. Este modelo conlleva tres fases: Identificación del
tema textual, travesía selectiva del texto y extracción de sus partes relevantes, utilizando
las ideas sobre generación, de enlaces hipertextuales, se pueden crear enlaces
intradocumentales entre los párrafos o frases de un texto.
4. Métodos de evaluación
Para valorar y verificar que los modelos tienen un resultado óptimo para conseguir los
objetivos, se necesitará un proceso de evaluación cuya finalidad es detectar errores para
mejorar el modelo. Encontramos que las dificultades en la evaluación son debidas a
varios puntos:
. No existe un único resumen válido para un texto.
. Lenguaje natural producido por una máquina
. Mayor número de personas juzgando incrementa el coste de evaluar.
. La tarea deresumir conlleva compresión(reducción de tamaño) y se necesita
evaluar resúmenes de distintos tamaños.
. Legibilidad (puede no tener relación con la calidad del resumen)
En relación con las expectativas de las tareas:
 Respuesta a una pregunta concreta
 Nueva información respecto a los documentos previos
 Con respecto a un tema concreto (Evento, Persona…)
Actualmente se viene a diferenciar dos métodos para la evaluación de resúmenes
automáticos, hablamos de métodos intrínsecos y métodos extrínsecos.4.1 Métodos de evaluación intrínsecos
Valoran la calidad del resumen en legibilidad, comprensión, acrónimos, anáforas,
integridad de la estructura, gramaticalidad, estilo impersonal. Valoran la informatividad.
La información que contiene respecto a un resumen ideal e con respecto al texto
original.
4.2 Métodos de evaluación extrínsecos
Evalúan el uso del resumen en relación con otras tareas:
- Encontrar documentos relevantes en una colección
- Decisión tomada leyendo el resumen o el texto original
- Sistemas de recuperación de información
- Contenidos páginas Web (buscadores)
El Corpus de evaluación es la interfaz para indicar lo relevante que es una oración en el
texto. Se utilizan sistemas de confección de un corpus de evaluación de resúmenes.
Ejemplo: Proyecto Hermes, se puede ampliar esta información visitando la siguiente
URL http://ima.udg.es/~mfuentes/cgi-bin/instruc.html

Trabajo de grado en procesamiento del lenguaje natural

domingo, 13 de enero de 2013

Métodos de representación automática del conocimiento en la elaboración de resúmenes

No hay comentarios:

Publicar un comentario