Trabajo de grado en procesamiento del lenguaje natural: enero 2013

domingo, 20 de enero de 2013

Preguntas sobre la generación automatica de resumenes

¿Cuáles son los elementos de mayor relevancia, pero, al mismo
tiempo más generales, que han de explotarse para el resumen
automático? ¿Cómo se pueden combinar dichos elementos? ¿Cómo se
puede evaluar su rendimiento? Estas preguntas han atraído la atención
de posteriores investigaciones y, en la actualidad, se siguen
planteando a la hora de elaborar sistemas de resumen.

sábado, 19 de enero de 2013

Desventajas metodo extracción

Se necesitan tasas de comprensión elevadas para textos
largos, de ahí que es posible que se omita demasiada
información.
- No funciona de forma efectiva a la hora de afrontar
problemas como el resumen multidocumental (cf. apartado
2.4.5.)
- Los profesionales del resumen elaboran resúmenes
(abstracts), no extractos (extracts).

La generación de resumenes por extracción se divide en 2 , método estadístico y método de análisis de discurso

Técnicas basadas en métodos estadísticos
215
que
jerarquizan las oraciones tras aplicar el método en cuestión
y extraen las oraciones que han quedado mejor
clasificadas.
- Técnicas basadas en el discurso, que analizan la estructura
del discurso del documento original con el fin de
determinar la importancia de las unidades textuales para,
seguidamente, extraer las de mayor relevancia.

Etapas para la creación de un resumen automatico

La identificación del tema o análisis: El objetivo de esta
fase es del de retener la información más importante del
texto de entrada. Dicha identificación se consigue a través
de diversas técnicas que se detallarán posteriormente (cf.
apartado 2.4.) y, a nuestro juicio, constituye la fase más
relevante del proceso de resumen, pues de ella dependerán
los datos de los que conste el resumen.
2. Interpretación del resumen o transformación: Una vez
identificados los temas centrales del texto de entrada, es
necesaria una fase de interpretación que procese el material
extraído con el fin de evitar redundancias, organice las
oraciones resultantes y, lo más importante, unir y fusionar
los temas relacionados en otros temas más generales.
3. Generación o síntesis: El objetivo de esta fase es reformular
el material extraído y fusionado en un nuevo texto
coherente y con oraciones completas. Si esta fase no se
lleva a cabo (como ocurre con gran mayoría de los sistemas
de resumen automático), el texto resultante es una copia
literal de ciertas partes del artículo y, en consecuencia,
puede que no sea de alta calidad, si bien puede que sea
suficiente para la aplicación o situación en cuestión.

Parametros para generar un resumen automatico

1) comprender el contenido de
un texto a un nivel bastante profundo, 2) ser capaz de averiguar la
importancia relativa del material y 3) generar un texto coherente
207
.
Sin duda, lograr todo ello con éxito supone un esfuerzo que, a la larga,
aportará grandes beneficios a la comunidad científica en su conjunto.

Porque un resumen automatico es necesario desde el punto de vista del escritor

Este tipo de resumen lleva a cuestionar en
ocasiones si el resumen automático es necesario, pues
cabría pensar que quién mejor puede resumir un texto que
su propio autor; sin embargo, el resumen semiprofesional
no es siempre sinónimo de resumen acertado debido a tres M. ª Cristina Toledo Báez
148
razones principales (Orăsan, 2006: 16): en primer lugar, el
autor no siempre refleja acertadamente el contenido del
texto original y, al respecto, Cleveland (1983: 10) señala
que «sometimes the authors use the abstrcts to promote their
articles by making claims which are not supported in the
article». En segundo lugar, Salanger-Meyer (1990) y Orăsan
(2001) demostraron que un número elevado de resúmenes
elaborados por los propios autores carecen de una
organización adecuada desde el punto de vista de la
estructura del discurso y, por ende, puede dar lugar a
confusión en la comprensión. En tercer y último lugar, el
resumen automático resulta de suma utilidad para los
artículos o las comunicaciones publicadas en actas de
congresos, en particular para aquellos casos en los que no se
dispone de un resumen

Tipos de resumen

Un resumen puede tener distintas características en función de
quién lo haya redactado, tal y como señala Hasler (2007: 29 y ss.),
quien distingue tres tipos de resumen: 1) el resumen no profesional; 2)
el author summarisation
199
o resumen semiprofesional
200
y 3) el
resumen profesional.

http://www.biblioteca.uma.es/bbldoc/tesisuma/17965160.pdf

Normas internacionales sobre resumenes

Ante un elemento tan relevante en el mundo científico, la
normalización internacional también ha desempeñado un papel
importante a la hora de determinar las características básicas que ha de
poseer todo resumen. De este modo, encontramos varias normas
internacionales referidas a los resúmenes, entre las que cabe destacar
dos principalmente: por un lado, la norma ISO 214:1976
Documentation. Abstracts for publications and documentation
196
; por
otro, la norma ANSI/NISO Z39.14 - 1997 (R2002) Guidelines for
Abstracts, del American National Standards Institute (ANSI)
197
. La
primera se centra en el tratamiento del contenido de los documentos y
su presentación, y su equivalente en español es la norma UNE
50-103-1990, donde se define el resumen de la siguiente forma: «an
abbreviated, accurate representation of the contents of a document,

195
Como comprobaremos en el apartado 2.3.2.2., en algunos tipos de resumen,
como es el crítico, el elemento subjetivo resulta imprescindible.
196
La norma ISO 214:1976 puede adquirirse en la siguiente URL:
<http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumbe
r=4084>.
197
Para más información sobre la ANSI, consúltese <http://www.ansi.org/>. M. ª Cristina Toledo Báez
146
without added interpretation or criticism and without distinction as to
who wrote the abstract» (AENOR, 1990). Por su parte, la norma
ANSI/INSO define el resumen en el ámbito científico como: «an
abbreviated, accurate representation of the contents of a document,
preferably prepared by its author(s) for publication with it» (Bhatia,
1993:78). Además, de acuerdo con la norma ANSI/NISO
239.14-1997, un resumen permite al lector a) identificar rápidamente
el contenido básico de un documento, b) determinar su relevancia de
acuerdo con sus intereses y c) decidir si continúa leyendo el
documento

jueves, 17 de enero de 2013

CONCLUCIONES: 4 PROTOTIPO DE SISTEMA PARA EL RESUMEN AUTOMÁTICO DE TEXTOS EN CASTELLANO EN UN DOMINIO ESPECÍFICO

En cuanto al potencial de aplicación, se encontró que la herramienta puede llegar a ser
útil para la organización, en siguiente escenario: la herramienta señale fragmentos
relevantes de fuentes de información diversa y los encargados decidan si es necesario
indagar más a profundidad en ciertos textos o si se dejan a un lugar secundario, lo cual
apoyaría la elaboración de proyectos en la etapa de construcción de antecedentes, ya
que cuando esta se ejecuta es necesario explorar muchas fuentes de información textual,
sobre todo en la construcción de marcos teóricos. También se considero que podría ser
útil para consolidar un banco de titulares o fragmentos destacados para consultas de los
afiliados a la organización en diversos campos económicos sobre algunos temas
específicos.

Evaluacion de resumenes automaticos mediante QARLA ∗

Este art´ıculo muestra la aplicaci´on del marco de evaluaci´on QARLA
sobre los res´umenes evaluados en el foro DUC-2004, para las tareas 2 y 5. El marco
QARLA permite evaluar de forma autom´atica los sistemas seg´un diferentes aspectos
(m´etricas de similitud) en relaci´on a un conjunto de res´umenes modelo, identiﬁcando
as´ı los aspectos m´as deﬁcitarios de las estrategias de resumen existentes. Por otro
lado, el marco QARLA permite combinar y meta-evaluar diferentes m´etricas de
similitud, otorgando m´as peso a los aspectos que caracterizan a los modelos en
relaci´on a los res´umenes autom´aticos.

http://www.sepln.org/revistaSEPLN/revista/35/08.pdf

Metricas para sistemas de evaluación automatica

BLEU: evaluación automática para sistemas de
MT.
● ROUGE: evaluación automática para sistemas de
resúmenes automáticos

Uso de RTS para el metodo de abstraccción

En esta categoría se ubican las aproximaciones que utilizan el análisis de lenguaje,
principalmente el aspecto léxico y sintáctico, una tarea clásica es la creación de árboles
sintácticos. En [34] se encuentra un ejemplo de este tipo de soluciones, propone
primero un proceso de conceptualización en el que se identifican los conceptos que
deben incluirse en el resumen, este proceso se apoya en un tesauro que contiene
conceptos y nombres de entidades que son recurrentes en el idioma inglés y en el uso
de gramáticas regulares para encontrar la ubicación de nombres propios. Luego, aplica
lo que llama un proceso lingüístico para lograr una combinación coherente de los
términos seleccionados, para esto se utiliza un lexicón que provee un vocabulario para
el sistema y contiene restricciones sintácticas y léxicas de cuándo deben usarse y
combinarse palabras, además se aplica un generador de frases que encuentra las
inflexiones apropiadas para cada palabra en una frase.
1.5.2.2 APLICANDO REPRESENTACIÓN DEL CONOCIMIENTO
En esta categoría caen las aproximaciones que utilizan el área de representación de
conocimiento para lograr los resúmenes, valiéndose entre otros elementos de las
ontologías. Por ejemplo [27], utiliza lo que llama la teoría retórica de la estructura, en la
que establece que en un texto puede identificarse un núcleo y un satélite, siendo el
núcleo la parte más informativa de aquel. Con base en esta teoría propone la utilización
de un árbol de discurso con el cual se clasifican las partes del texto. Utilizando esta
jerarquización se eligen las secciones más arriba del árbol y con mayor importancia
debido a su categoría, como base del resumen. La figura 1-5 describe brevemente esta
aproximación.

Herramientas de resumen automático

Existen ya herramientas o programas que realizan resumen automático de
textos. Algunas de ellas son:
• Summarizer: software de resumen automático que reconoce varios formatos de
documento (.doc, .pdf, .html …). Su resumen está formado únicamente por
frases completas del texto original.
• Extractor: software de resumen automático de textos, correo electrónico y
páginas web. El resumen que genera consta de listas de palabras clave y frases
importantes.
• TextAnalyst: software muy completo de análisis de contenido textual. La calidad
del resumen que elabora se debe a un buen equilibrio entre técnicas lingüísticas
y redes neuronales.
• SweSum: software de resumen automático de texto que permite seleccionar el
porcentaje de resumen. Además, puede sacar listados con palabras clave y
estadísticas.
• Microsoft Word: también incluye un sistema básico de autorresumen.

Resumen automático multi-documento

Resumen automático multi-documento
En este caso, el resumen se realiza sobre los contenidos de un conjunto de
documentos.
En esta sección se abordarán los 2 temas siguientes:
• Requisitos que debe cumplir el resumen automático multi-documento.
• Tipos de resumen automático multi-documento.
2.3.1. Requisitos
El resumen automático multi-documento debe cumplir una serie de requisitos
que se enumeran a continuación:
• Clustering: habilidad para agrupar documentos parecidos y buscar información
relacionada.
• Cobertura: habilidad para localizar y extraer los puntos más importantes de
varios documentos.
• Anti-redundancia: habilidad para minimizar redundancias entre los pasajes del
resumen.
• Cohesión del resumen: habilidad para combinar pasajes textuales de forma que
le resulte útil al lector. Las principales técnicas en este sentido son: ordenación
de los pasajes del más importante al menos importante, de forma que si el lector
deja de leer el resumen haya podido obtener los contenidos de mayor
relevancia, ordenación de los pasajes por fecha, ordenación por temas...
• Coherencia: los resumenes generados deben ser totalmente entendibles por el
usuario.
• Inconsistencias de las fuentes: como algunos documentos pueden contener
errores con frecuencia, el resumen debería ser capaz de reconocer e informar de
dichas inconsistencias.
• Actualizaciones: cuando se genera un nuevo resumen automático, debería tener
en cuenta los resumenes previos generados.
2.3.2. Tipos
Los tipos de resumen automático multi-documento que existen son:
• Resumen a partir de las secciones comunes de los documentos: localiza las
partes importantes que la colección de documentos tienen en común y las utiliza
para efectuar el resumen. Resumen Automático Estela Castillo Bartolomé
5
• Resumen a partir de las secciones comunes y de las secciones únicas de los
documentos: exactamente igual que el anterior, pero teniendo en cuenta también
para el resumen las partes más importantes únicas de cada documento.
• Resumen del documento central: crea un resumen sencillo del documento
central del grupo.
• Resumen del documento central y del resto: idéntico al anterior, pero
incluyendo también pasajes y palabras claves del resto de documentos para
obtener una cobertura más completa del conjunto de todos ellos.
• Resumen del último documento y del resto: genera el resumen a partir del
documento más reciente de la colección, incluyendo pasajes y palabras claves
del resto de documentos.
• Resumen a partir de las secciones comunes y de las secciones únicas de los
documentos teniendo en cuenta la fecha: realiza un resumen de forma similar al
segundo tipo pero dándole más importancia a los pasajes de los documentos
más recientes.

Aplicación en perl para medir la similitd por medio de analisis del coseno

http://text-similarity.sourceforge.net/

Detección de redundancia

El objetivo de esta fase es detectar y eliminar
la informaci´on redundante de un documento,
para evitar as´ı que el resumen contenga
informaci´on repetida. Para lograr este
objetivo, nos basamos en un m´odulo de reconocimiento
de la implicaci´on textual (TE)
(Ferr´andez-Esc´amez, 2009), que nos indicar´a,
dadas dos oraciones si una se puede deducir
de la otra. Este sistema se basa en el c´omputo
de un conjunto de medidas l´exicas (como
por ejemplo, distancia de Leveshtein, Smith-
Waterman, similitud del coseno), sint´acticas
(´arboles de dependencia) y sem´anticas basadas
en WordNet 3.0 5, aplicando un clasificador
SVM con el objetivo de tomar la decisi´on
final.

Arquitectura compendium

domingo, 13 de enero de 2013

3 Herramientas creadas para la generación de resumenes

Copernic

COPERNIC SUMMARIZER es un software que permite resumir diversos tipos
de documentos usando algoritmos estadísticos y lingüísticos, de manera que
extrae las frases más relevantes.
Entre sus funciones se encuentra:
Crear resúmenes de cualquier texto incluido PDF: páginas web, PDF, e-mail,
mensajes...
Integrado en las aplicaciones más usuales: se pueden obtener resúmenes
desde aplicaciones como Explorer, Netscape, Adobe Acrobat, Outlook Express,
Eudora, Word..
Resúmenes en tiempo real mientras se navega en Internet: mientras se navega
relaiza en tiempo real un resumen de la página web, de manera que no es
necesario leer toda la página ahorrando tiempo.
Uso de Web Essence: tecnología que automáticamente quita de las páginas
web texto irrelevante, centrándose en los elementos esenciales del texto.
Interface Intuitiva.
Exporta los resultados a una gran variedad de formatos de archivo.
Funcionamiento del programa:
Concepts: aparecen las palabras claves extraídas del documento.
Summary tasks: permite :
 Exportar el resumen a diversos tipos de archivo.
 Enviar el resumen por e-mail.
 Imprimir el resumen.

Métodos de representación automática del conocimiento en la elaboración de resúmenes

Hemos considerado la clasificación en la automatización de resúmenes defendida por
Maria Pinto para explicar las líneas de investigación metodológicas del área de PLN,
agrupadas en tres grandes bloques:
-Métodos de extracción basados en la estructura superficial
-Métodos de sumarización, a medio camino entre resumen y extracto
-Métodos gráficos y relacionales
Pasamos a exponer brevemente las características y diferencias de cada bloque
mencionado.
3.1 Métodos de extracción basados en la estructura profunda
Caracterizados porque abordan el texto como cadenas de caracteres y apenas realizan un
análisis lingüístico. El documento final es un subconjunto de oraciones del texto.
Siguiendo a Paice, estos son los métodos estadísticos de extracción automática:
-Frecuencia de palabras
La selección de palabras clave realizada en atención a la frecuencia de repetición en la
frase.
-Palabras Clave del título
Selección sobre el título y encabezamientos, tras eliminar las palabras vacias.
-Localización de la información o posición en el texto
Lead method: Se considera que en cualquier texto lo importante aparece al
principio (o al final), se seleccionan las n primeras oraciones o párrafos.
Optimum position policy( OPP) : Las posiciones con mayor carga significativa
aparecen en posiciones dependientes del género, se precisa el aprendizaje automático de
las posiciones más prometedoras a nivel de párrafo y oración ( Lin,Hovy,1997 )
-Sintáctico
La extracción relacionada con la estructura sintáctica.
-Palabras temáticas importantes
La identificación de términos claves de contenido más frecuente o con frecuencia alta
en el documento que son escasas en el conjunto de documentos.-Términos o frases significativas (cue phrases)
La selección se apoya en una lista de términos indicativos que tienen un peso en la
selección de las frases se diferencian tres clases según la relevancia:
 Bonus phrases indicadores de términos con peso : Concluyendo.....,en
resumen.....,principalmente......
 Stigma phrases indicadores de términos de escaso peso: Dificilmente.....,
imposible.....no..., Null phrases indicadoras de frases irrelevantes para la
selección.:Por contra..
-Relacionales
La extracción de información relevante se consigue utilizando representaciones
semánticas del texto. Por otra parte, Edmundson (4) propone un método lógico
matemático para la asignación de valores numéricos a las frases. Plantea cuatro modos
de selección de frases: palabra clave (key), entrada (cue), título y emplazamiento. Al
evaluar los experimentos se constató que la selección por entrada, título y
emplazamiento tuvieron ventaja frente a los de palabra clave, por tanto se eliminó este
método de selección para resúmenes automáticos.
Otra combinatoria de métodos interesante es la propuesta por ANES (Sistema de
Extracción Automática de Noticias) en base a métodos estadístico/heurístico sobre los
términos, determinando las frases más representativas(5). El análisis estadístico del
corpus documental se realiza a partir de las frecuencias asignándoles un peso a cada
término y un identificador. Utiliza una ecuación de frecuencias para seleccionar las
frases que contienen las ideas principales mediante la suma de los pesos de los términos
que contienen cada frase y el sistema se decide por las que obtienen los pesos mayores.
En cuanto a los resultados del experimento fueron valorados por analistas con la
calificación de medianamente aceptables en cuanto a coherencia y cohesión.
Y por último dentro del grupo de métodos por extracción cabe mencionar el método
llamado de máxima frecuencia ó método de Knowledge Discovery (KD), en que se se
realiza un preproceso de documentos, tratando la eliminación de términos y datos el
texto original queda reducido a una secuencia de palabras, se analiza las máximas
secuencias de palabras más frecuentes para terminar con una clasificación y ordenación
de términos. Este método permite sobre un grupo de documentos encontrar una
frecuencia de palabras que es frecuente en una colección y a la vez de otra secuencia
frecuente mayor.(6) KD es un método que destaca en las técnicas de análisis inteligentes
en bases de datos automatizadas, cuya meta es derivar conocimiento de esas bases de
datos reales, aplicando patrones para la extracción de información.
3.2-Métodos de sumarización
Dado el extraordinario crecimiento exponencial de la información on-line, los usuarios
son víctimas de una sobrecarga informativa. Los sumarios entendidos como una forma
abreviada del contenido del documento pueden aliviar esta situación reduciendo de
manera considerable la información a leer por el usuario o investigador. Los sistemas
basados en la estructura del discurso o retórica incorporan cierto grado de creatividad y operan sobre las relaciones discursivas de cohesión y coherencia. Presentamos las
siguientes agrupaciones de métodos de sumarización:
- Métodos basados en la estructura discursiva o retórica
- Métodos basados en la estructura profunda
- Métodos basados en la estructura discursiva o retórica
Los sistemas basados en la cohesión (Barzilay,1997) relacionan los items de un texto, la
conectividad no estructural, repetición, referencia, cohesión léxica a través de selección
de las palabras.
Los sistemas basados en la coherencia (D.Marcu,1997-1999) consiguen relacionar los
segmentos del texto , los elementos del discurso están conectados a través de la
estructura semántica. Es una aproximación basada en la coherencia interna del texto,
consigue una buena calidad del resumen. Marcu, representa la estructura retórica del
texto y utiliza algoritmos de análisis retórico basado en un corpus compuesto por
marcadores de discurso y fragmentos textuales.
Plantillas
Los sistemas basados en plantillas (Gaizauslas-Wilks 1998) han sido utilizado en
extracción de noticias (prensa económica ), Reuter(Andersen1992-1994), artículos de
información financiera (Chong-Goh 1997), extracción automática de referencias
bibliográficas de patentes a texto completo ( Lawson1996), en este procesamiento del
lenguaje natural se cumplimentan plantillas estructuradas en patrones .
Plantillas Web
Altavista es un ejemplo de sistema de plantillas con frases relacionadas con el tema de
búsqueda para que el usuario escoja la opción más acertada.
Métodos basados en la estructura profunda
Concebido este procedimiento como un sistema experto basado en una red de
conocimientos básicos o redes semánticas representativas del contenido y aplicados al
texto, es un modelo semántico conceptual de generación de sumarios basado en las
teorías cognitivas.
FRUMP (7) es un programa para la generación de sumarios de artículos cortos. Está
cifrado sobre la base de hechos o conocimiento base que se usa para predecir
acontecimientos generales. El analizador textual está dirigido hacia las expectativas y la
interpretación del texto de entrada sobre la base de acontecimientos pronosticados,
realiza una nueva interpretación de la nueva situación y nuevas predicciones. La base de
conocimiento en la que actúa se estructura en guiones que contienen sólo los hechos
destacables que pueden ocurrir en una situación.
Otro sistema basado en inteligencia artificial para el análisis y la comprensión de textos
breves en dominios restringidos, generando representaciones semánticas en forma bien
de extractos o de sumarios es SCISOR (System for Conceptual Information
Summarization Organization and Retrieval) de Rau (8).Diseñado para procesar noticias cortas on-line sobre un tema del mundo empresarial
(transacciones de empresas y responsabilidad corporativa)extraídas de periódicos o
revistas como el Wall Street Journal. Permite una recuperación conceptual de la
información, de respuestas a cuestiones planteadas en lenguaje natural. Utiliza una
metodología KADS sistema experto de ingeniería del conocimiento, emplea
arquitectura BLACKBOARD o de pizarra para la representación cognitiva técnica de la
información en la resolución de problemas (Niggemeyer)
3.3-Métodos gráficos y relacionales
Salton diseñó un modelo de recuperación, conocido como espacio vectorial en el que las
unidades informativas se representan por grupos o vectores de términos conocidos como
clustering de documentos y pasajes. El sistema SMART permite la descomposición y
estructuración de los documentos, segmentos de longitud: secciones, grupos de frases
adyacentes o frases sueltas. Se establecen relaciones entre textos y pasajes de textos
para generar mapas relacionales que muestren las similitudes de los textos y pasajes que
han superado un determinado valor. Este modelo conlleva tres fases: Identificación del
tema textual, travesía selectiva del texto y extracción de sus partes relevantes, utilizando
las ideas sobre generación, de enlaces hipertextuales, se pueden crear enlaces
intradocumentales entre los párrafos o frases de un texto.
4. Métodos de evaluación
Para valorar y verificar que los modelos tienen un resultado óptimo para conseguir los
objetivos, se necesitará un proceso de evaluación cuya finalidad es detectar errores para
mejorar el modelo. Encontramos que las dificultades en la evaluación son debidas a
varios puntos:
. No existe un único resumen válido para un texto.
. Lenguaje natural producido por una máquina
. Mayor número de personas juzgando incrementa el coste de evaluar.
. La tarea deresumir conlleva compresión(reducción de tamaño) y se necesita
evaluar resúmenes de distintos tamaños.
. Legibilidad (puede no tener relación con la calidad del resumen)
En relación con las expectativas de las tareas:
 Respuesta a una pregunta concreta
 Nueva información respecto a los documentos previos
 Con respecto a un tema concreto (Evento, Persona…)
Actualmente se viene a diferenciar dos métodos para la evaluación de resúmenes
automáticos, hablamos de métodos intrínsecos y métodos extrínsecos.4.1 Métodos de evaluación intrínsecos
Valoran la calidad del resumen en legibilidad, comprensión, acrónimos, anáforas,
integridad de la estructura, gramaticalidad, estilo impersonal. Valoran la informatividad.
La información que contiene respecto a un resumen ideal e con respecto al texto
original.
4.2 Métodos de evaluación extrínsecos
Evalúan el uso del resumen en relación con otras tareas:
- Encontrar documentos relevantes en una colección
- Decisión tomada leyendo el resumen o el texto original
- Sistemas de recuperación de información
- Contenidos páginas Web (buscadores)
El Corpus de evaluación es la interfaz para indicar lo relevante que es una oración en el
texto. Se utilizan sistemas de confección de un corpus de evaluación de resúmenes.
Ejemplo: Proyecto Hermes, se puede ampliar esta información visitando la siguiente
URL http://ima.udg.es/~mfuentes/cgi-bin/instruc.html

Generación automática de resúmenes.

http://acoca2.blogs.uv.es/files/2010/12/Generaci%C3%B3n-autom%C3%A1tica-de-res%C3%BAmenes.pdf

7.-CONCLUSIONES
Del análisis desarrollado sobre necesidades en el procesamiento de la
información en el proceso de recuperación documental y con relación con las
líneas de investigación que se están trabajando desde los grupos de
investigación de las universidades podemos enumerar las siguientes
conclusiones:
1.- El increíble crecimiento de la producción documental ha obligado a
desarrollar herramientas que permitan procesar la información de una forma
eficiente. Para ello se han creado sistemas de producción automática de
resúmenes que permiten a los usuarios procesar y representar el contenido de
los documentos de forma pertinente y fiable.
2.- Actualmente las investigaciones llevadas a cabo han derivado en dos
líneas de trabajo fundamentales, a la hora de obtener los resúmenes de forma
automática. Por definición se van a diferenciar dos tipos de resúmenes, por
extracción y por abstracción.
3.- El procesamiento del lenguaje natural va dirigido a solucionar la
ambigüedad del lenguaje natural a través de técnicas informáticas. Con ello se
pretende solucionar problemas en varios niveles (morfosintáctico, sintáctico,
semántico y contextual).
4.- Los métodos de representación del conocimiento en la generación
automática de resúmenes se encuadra en tres grandes grupos: los métodos de
extracción basados en la estructura superficial, los métodos de sumarización a
medio camino entre el resumen y el extracto, y los métodos gráficos y
relaciónales.
5.- El proceso de evaluación permite clarificar el resultado más o menos
óptimo de la producción automática de resúmenes. Sin embargo es un
procedimiento complejo, que está condicionado por la propia complejidad de la
tarea de resumen (que se puede aplicar no solo al resumen automático sino
también al manual).
6.- Hemos comprobado que la investigación en la generación automática
de resúmenes va paralela a la investigación sobre Procesamiento de Lenguaje
Natural (PLN). Las investigaciones han experimentado un incremento
significativo en la década de los noventa y en estos momentos arroja
resultados prometedores, basándonos en el análisis de los proyectos que se
desarrollaron podemos afirmar que en el futuro la investigación está
garantizada. Los grandes proyectos americanos (TIDES) y europeos (Proyecto
WordNet) continúan buscando mejoras en los resultados.
Sin embargo, hay que señalar que casi la totalidad de la investigación es en
lengua inglesa pues cualquier sistema que pretenda trabajar sobre la
información semántica de un documento precisa un módulo de desambigüación
del sentido de las palabras(WSD), los recursos léxicos,las ontologías están
orientadas a la desambiguación del sentido de las palabras en ingles . Además los numerosos recursos supone mayores facilidades en la fase de evaluación
de resultados. Es muy significativo que el idioma de trabajo en que se
desarrolla la investigación es el ingles, por tanto en este campo de
investigación se considera un handicap para los investigadores que utilizan el
español. No obstante en las universidades españolas la investigación en este
campo es en ingles. Sin embargo, la aparición de diferentes WordNets, dentro
del proyecto EurowordNet, permitirá el desarrollo de aplicaciones que podrán
incorporar módulos de WSD en español y un avance en los próximos años para
la investigación desde las universidades lengua española.

miércoles, 9 de enero de 2013

Lexrank , la centralidad como solucion para generar resumenes con coherencia y cohesion bastante aceptable

En esta línea, Erkan y Radev (2004b) presentan LexRank, uno de los
métodos más aceptados para calcular la centralidad en un grafo, aplicado a la
generación automática de resúmenes multi-documento. LexRank construye
un grafo para el conjunto de documentos a resumir en el que existe un vértice
por cada oración del mismo. Para determinar los enlaces entre los vértices,
las oraciones se representan por sus vectores de frecuencias (tf × idf), y
se calcula la similitud léxica entre ellos utilizando la métrica del coseno,
obteniendo así una matriz de similitudes. Aquellos pares de oraciones que
presenten una similitud superior a un determinado umbral se enlazan entre sí
en el grafo. Partiendo de la hipótesis de que las oraciones que son similares
a muchas otras son las más importantes en relación al tema central del40 Capítulo 2. Trabajo Previo
documento, la extracción de oraciones relevantes consiste en identiﬁcar las
oraciones que actúan como centroides en el grafo. En el artículo se investigan
distintas deﬁniciones de centralidad léxica en múltiples documentos:

teoria de coherencia y cohesion

Dentro de las aproximaciones basadas en la cohesión, se han estudiado trabajos que utilizan
cadenas léxicas y grafos de cohesión, mientras que dentro de las aproximaciones basadas en la coherencia se ha presentado, por su importancia, la Teoría
de la Estructura Retórica. Tanto las relaciones de coherencia como las de
cohesión pueden utilizarse para determinar la relevancia de las oraciones.
En esta sección, nos centraremos en el estudio de diferentes métodos que
utilizan el concepto de centralidad (centrality) para capturar las oraciones
“centrales” en un documento o conjunto de documentos. Típicamente, estos
enfoques representan el texto como una red compleja. En ella, los nodos
representan cada una de las unidades textuales en las que se divida el texto,
que dependiendo de la aplicación pueden variar desde palabras u oraciones
hasta párrafos o incluso documentos. Por su parte, las aristas representan
algún tipo de relación entre estas unidades, relaciones que a su vez pueden
ser de naturaleza léxica, sintáctica o semántica.

Tecnicas a nivel de discurso

En cuanto a generación automática de resúmenes se reﬁere, en las secciones anteriores ya han sido revisados distintos enfoques que utilizan grafos
para representar las unidades lingüísticas del documento, ya sea para asegurar la coherencia del resumen o para analizar su cohesión, y que se clasiﬁcan

Generacion del lenguaje

La generacion de textos parte de dos dominios, el contextual y el gramatical

martes, 8 de enero de 2013

Cadenas lexicas y grafos de cohesion

La aproximación más aceptada para la representación de la cohesión textual son los llamados grafos de cohesión. Como ya se ha mencionado, dentro
de un documento, las palabras y oraciones se encuentran conectadas entre
sí por medio de distintos tipos de relaciones. Estas relaciones se pueden representar en una estructura de grafo, en el que los vértices son los distintos
elementos textuales (típicamente oraciones) y los arcos representan las relaciones entre ellos. Skorokhod’ko (1972) propone un método de extracción
de oraciones que incluye la construcción de una estructura semántica para
el documento utilizando un grafo de este tipo, en el que los arcos representan relaciones de repetición, hiponimia, sinonimia o referencias a palabras
relevantes. La idea subyacente es que las oraciones más signiﬁcativas son
aquellas que están relacionadas con un mayor número de otras oraciones y
son las primeras candidatas a la extracción. Mani (2001) presenta esta misma idea con el nombre de Suposición de la Conexión de un Grafo (Graph
Connectivity Assumption). En Salton et al. (1997), las unidades consideradas como nodos del grafo son párrafos en lugar de oraciones, y las relaciones
indican la similitud entre las palabras de los párrafos.
Son muchos los trabajos recientes que utilizan las técnicas descritas para
capturar las relaciones implícitas entre las unidades textuales y mantener
así la cohesión del resumen generado. En este sentido, cabe mencionar el
trabajo de Reeve, Han y Brooks (2007), que supone una adaptación del
método de las cadenas léxicas para generar resúmenes de documentos biomédicos. Para ello, en lugar de trabajar con términos, el texto se traduce a
conceptos del UMLS (Uniﬁed Medical Language System, ver Sección 3.1.3)
que posteriormente se encadenan entre sí, de tal forma que cada cadena
constituye una lista de conceptos que pertenecen al mismo tipo semántico
en UMLS. Cada cadena se puntúa multiplicando la frecuencia con la que su
concepto más frecuente aparece en el documento por el número de conceptos que componen la cadena. Las puntuaciones obtenidas se utilizan para
determinar la cadena de conceptos más “fuerte” (i.e. aquella que, con una
mayor probabilidad, representa el tema principal del documento). González34 Capítulo 2. Trabajo Previo
y Fuentes (2009) de nuevo presentan una adaptación del método de las cadenas léxicas. Su aportación consiste en considerar nuevas relaciones para
medir la cohesión interna de las cadenas: la relación “extra-fuerte”, la relación “fuerte” y la relación “media-fuerte”. A la hora de puntuar las cadenas,
se tienen en cuenta distintas heurísticas, como su longitud, su posición de
inicio en el documento o el tipo de relaciones que enlazan a las palabras que
la componen. En función de su puntuación, las cadenas se clasiﬁcan en uno
de los tres tipos siguientes: “fuerte”, “media” y “débil”. Para construir el
resumen, las oraciones se seleccionan utilizando las relaciones fuertes pero,
en caso de no ser suﬁcientes para alcanzar el ratio de compresión deseado,
se acude al resto de relaciones.

Tipos de cohesión

El primer grupo de técnicas estudiado realiza un análisis de la cohesión del
documento. Halliday y Hasan (1996) deﬁnen la cohesión textual en términos
de las relaciones entre palabras, signiﬁcados de palabras o expresiones referidas, que determinan cómo de estrechamente conectado está el texto. Distinguen entre cohesión gramatical, reﬁriéndose a ciertas relaciones lingüísticas como la anáfora, la elipsis y la conjunción; y cohesión léxica, reﬁriéndose
a relaciones como la reiteración, la sinonimia y la homonimia, pudiéndose
combinar entre sí ambos tipos de relaciones.

http://eprints.ucm.es/12662/1/T32908.pdf

Dos grupos de técnicas de análisis de coherencia y cohesión

Enfoques Basados en la Estructura del Discurso
Los enfoques recientes hacen uso cada vez más de un soﬁsticado análisis del
lenguaje natural para identiﬁcar el contenido relevante en el documento, y
para ello analizan las relaciones entre palabras o la estructura del discurso.
Numerosos estudios acerca del comportamiento de los profesionales en generación de resúmenes indican que, sin lugar a dudas, a la hora de enfrentarse
a la tarea crean un modelo mental de lo que esperan que sea la estructura
del documento. Este modelo es precisamente lo que las técnicas discursivas
aspiran a capturar.
Dentro de los métodos basados en la estructura del discurso, es posible
distinguir, a su vez, dos grupos de técnicas: las que analizan la cohesión del
documento y las que se concentran en el análisis de su coherencia.

http://eprints.ucm.es/12662/1/T32908.pdf

Decisión de calidad de coherencia de generacion de articulos segun la cantidad de temas tratados

Es por ello que la práctica totalidad de la investigación
realizada hasta el momento, o bien se circunscribe a tipos de documentos
especíﬁcos, o bien pretende abarcar documentos de cualquier tipo a costa de
reducir la calidad de los resúmenes generados

lunes, 7 de enero de 2013

2 tipos de generación de resúmenes

Son dos tipos , extractivo y el abstractivo , estoy usando el abstractivo

Trabajos relacionados en el ámbito
extractivo
Para generar resúmenes automáticos de texto
existen dos enfoques: extractivo y abstractivo.
El enfoque extractivo selecciona y extrae frases
o partes de ella del texto original. La mayor
ventaja que tiene este enfoque es que resulta
muy robusto y fácilmente aplicable a contextos
de propósito general, ya que, su independencia
del dominio, e incluso del género de los
documentos, es muy alta. El enfoque
abstractivo suele englobar técnicas de
procesamiento del lenguaje natural, más
complejo pues necesita un conocimiento léxico,
gramatical y sintáctico del dominio, para
modelar semánticamente el conocimiento y a
partir de éste ser capaz de generar un resumen.
Típicamente, el proceso de resumen
extractivo consiste en identificar las sentencias
de un texto de origen que sean relevantes para
el usuario a la vez que se reduce la redundancia
de la información. Las sentencias son puntuadas
basándose en una serie de características y las n
sentencias de mayor puntuación son extraídas y
presentadas al usuario en su orden de aparición
en el texto original.
Para trabajar con las frases y su puntuación,
un mecanismo de representación comúnmente
usado han sido los modelos de puntuación o
ranking basados en grafos. Los algoritmos de
Manuel de la Villa, Manuel J. Maña
56ranking basados en grafos son un modo de
decidir sobre la importancia de un vértice
dentro del grafo, teniendo en cuenta
información referencial global del grafo,
obtenida recursivamente mejor que localmente
desde el vértice

http://rua.ua.es/dspace/bitstream/10045/10545/1/PLN_42_07.pdf

Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico

Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. En el ámbito biomédico son numerosos los estudios que hablan de la sobrecarga de información y recogen la necesidad de aplicación de técnicas eficientes de recuperación y generación de resúmenes para una correcta aplicación de la medicina basada en la evidencia. En este contexto vamos a presentar una propuesta de metodología de generación automática de resúmenes basada en conocimiento estructurado y grafos. A partir de una representación del documento original en un grafo, aplicando técnicas de similitud entre frases y sus conceptos biomédicos, se obtienen las frases más relevantes para formar el resumen final.

jueves, 3 de enero de 2013

Parrafos importantes de libros de la biblioteca dario echandia

Similitudes con la rethorical structure teory y el analisis semantico latente