Trabajo de grado en procesamiento del lenguaje natural: 2013

lunes, 1 de abril de 2013

Disicosum y cortex

En cuanto a las unidades l´exicas, Disicosum
incluye reglas de dos tipos:
Reglas que otorgan m´as peso a las oraciones
que contienen: 1) palabras del t´ıtulo principal
del art´ıculo (excepto stopwords), 2) formas
verbales en primera persona del plural,
3) palabras incluidas en una lista que contiene
verbos y sustantivos del dominio m´edico
que pueden ser pertinentes para el resumen
(por ejemplo, analizar, evaluar, objetivo,
estudio, etc.) y 4) cualquier informaci
´on num´erica en las secciones de Pacientes
y m´etodos y Resultados.
Reglas de eliminaci´on de oraciones que contienen
unidades que se refieren a: 1) tablas
o figuras, 2) aspectos estad´ısticos o computacionales,
3) trabajos anteriores y 4) definiciones.
Por ´ultimo, el modelo incluye reglas discursivas
y reglas que combinan algunos aspectos de la
estructura discursiva con la estructura sint´actica
y comunicativa (reglas DISICO). Para formalizar
dichas reglas el modelo emplea la Rhetorical
Structure Theory (RST) (Mann and Thompson,
1988) y la Meaning-Text Theory (MTT)
(Mel’cuk, 1988; Mel’cuk, 2001). La RST es una
teor´ıa de organizaci´on del texto que caracteriza
su estructura como un ´arbol jer´arquico que
contiene elementos (n´ucleos [N] y sat´elites [S]) ligados
mediante relaciones discursivas (como, por
ejemplo, Elaboraci´on, Concesi´on, Ant´ıtesis, Condici
´on, Contraste, Background, etc.). En la figura
3 se muestra un ejemplo de la representaci´on discursiva
de la RST en forma de ´arbol (con dos
relaciones: Elaboraci´on y Background).
La MTT es una teor´ıa que integra diversos aspectos
del lenguaje. Disicosum emplea, por un
lado, elementos de la sintaxis de dependencias para
representar una oraci´on como un ´arbol donde
las unidades l´exicas son los nodos y las relaciones
entre ellas son actanciales (ACT), atributivas
(ATTR), apenditivas (APPEND) y coordinativas
(COORD). Por otro lado, Disicosum emplea la
distinci´on ente Tema y Rema, que es parte de
Figura 3: Ejemplo de ´arbol discursivo con relaciones
de la RST.
la estructura comunicativa de la MTT. Algunos
ejemplos de las reglas Disicosum son:4,5
IF S is satelliteREFORMULATION R
THEN ELIMINATE S
Ej. [Se incluyeron s´olo pacientes estables.]N
[Es decir, se consideraron pacientes que no
hab´ıan precisado cambiar su medicaci´on habitual
en los ´ultimos 15 d´ıas y cl´ınicamente
no refer´ıan un empeoramiento importante.]S
IF S is satelliteBACKGROUND B
THEN ELIMINATE S
Ej. [La quimioprofilaxis (QP) antituberculosa
es una de las principales intervenciones
en la cadena de actuaciones para la prevenci
´on de la tuberculosis (TBC).]S [El objetivo
de este estudio es conocer el grado
de cumplimiento y la tolerancia terap´eutica
de la QP antituberculosa en nuestro medio,
as´ı como describir y analizar sus factores
condicionantes.]N
IF S is satelliteELABORATION El
AND S elaborates on the Theme of the nucleus
of El
THEN ELIMINATE S
Ej. [Como grupo de control se emple´o el formado
por 377 mujeres sanas.]N [Este grupo
se obtuvo mediante selecci´on aleatoria entre
mujeres que entre 1989 y 1991 hab´ıan dado
a luz en nuestro hospital.]S

martes, 19 de marzo de 2013

Paginas que tienen servicio de PLN y cobran

http://www.ethangardner.com/articles/text-analysis-and-natural-language-processing-on-the-semantic-web/

lunes, 11 de marzo de 2013

conceptos segun magister javeriana

Preparaci on
Lematizaci on: Seg un [Hotho et al., 2005] es un m etodo en el cual los verbos se
transforman a su forma ra z y los nombres a su forma singular.
Segmentaci on: La Segmentaci on o tokenization que es el proceso de dividir un

ujo de texto en palabras, frases, s mbolos o cualquier otro elemento signi cativo,
a este elemento se le llama token.
Eliminaci on Palabras irrelevantes: Seg un [Hotho et al., 2005], en este proceso
se eliminan las palabras con poca informaci on como art culos, preposiciones etc.
Aun m as, es la eliminaci on de palabras que ocurren frecuentemente por lo cual se
puede a rmar que contiene informaci on irrelevante
Etiquetado: El etiquetado presenta el etiquetado manual donde un experto iden-
ti ca los t erminos claves o se etiqueta usando UMLS [US-NLM, 2011] o Sistema
Uni cado de Lenguaje M edico, que es un conjunto de archivos y software que
re une m ultiples t erminos y vocabularios asociados a areas de la salud y biom edica,
estandariz andolas para permitir la interoperabilidad entre sistemas inform aticos.
Clasi caci on/Detecci on
Expresiones Regulares: Una expresi on regular proporciona medios concisos y

exibles para que \coincidan" (especi car y reconocer) las cadenas de texto, como
los caracteres especiales, palabras o patrones de caracteres
Propuesto: Esta rama incluye los proyectos que proponen sus propios algoritmos.
Modelos Ocultos de Markov: Como algoritmo innovador se expone los Modelos
ocultos de Markov el cual es un modelo estad stico para problemas lineales como
secuencias o series de tiempo y ha sido ampliamente usado en aplicaciones de
reconocimiento de habla.
Redes Bayesianas: Basado en [Antal et al., 2001, Antal et al., 2000], las redes
Bayesianas son b asicamente un grafo dirigido ac clico que consta de un conjunto
de nodos, uno por cada variable aleatoria. Un conjunto de arcos dirigidos que
conectan los nodos; si hay un arco de X a Y se dice que X es un padre de Y.
Un arco entre X y Y signi ca una in
uencia directa de X sobre Y, y es tarea
de un experto de nir estas relaciones de dependencia. Cada nodo Xi contiene la
distribuci on probabilidad condicional,.
Arboles de decisi on: Los arboles de decisi on, adecuados para la clasi caci on,
seg un [Hotho et al., 2005], son un conjunto de condiciones organizadas en una es-
tructura jer arquica, de tal manera que la decisi on nal a tomar se pueda determinar
siguiendo las condiciones que se cumplen desde la ra z del arbol hasta alguna de
sus hojas. Cada nodo interior contiene una pregunta sobre un atributo concreto
(con un hijo por cada posible respuesta) y cada nodo hoja se re ere a una decisi on
(clasi caci on).
7Otra rama descrita son las herramientas, las cuales describen la herramienta que soporta
el an alisis de historias cl nicas electr onicas:
GATE: General Architecture for Text Engineering [Cunningham et al., 2011] es una
infraestructura para el desarrollo y despliegue de componentes de software que procesan
lenguaje humano. Esta herramienta de mineria de texto esta disponible como software
libre.
Link Grammar Parser: Link Grammar Parser, es un analizador sint actico para el
idioma Ingl es, seg un [Sleator and Temperley, 1991, Sleator and Temperley, 1993] se ba-
sa en la gram atica de enlace, una teor a original de la sintaxis del Ingl es. Dada una
sentencia, el sistema le asigna una estructura sint actica, que consiste en un conjunto
de enlaces etiquetados conectando pares de palabras. El analizador tambi en produce
una representaci on constituyente"de una frase (que muestra las frases nominales, frases
verbales, etc.).
EMERSE: The Electronic Medical Record Search Engine [Hanauer, 2006], es un poten-
te motor de b usqueda para documentos con texto libre en historias cl nicas electr onicas.
Este ofrece m ultiples opciones para la creaci on de b usquedas complejas.
Propia: Constituye una herramienta desarrollada para un objetivo en particular dentro
del an alisis de historias cl nicas, estos contemplan implementaciones con alguna de las
herramientas mencionadas o implementaci on de algoritmos o procesos de miner a de
texto

martes, 26 de febrero de 2013

Por fin versiones estables de todos los servicios

Muchas horas sin dormir han valido la pena, ya esta SquidSearch,Radex y AutoCM , faltan pequeños detalles pero ya casi esta toda la infrastructura.

Tenemos 17.8 Gigas en frases,noticias,articulos y combinación de frases y coherencias .

viernes, 15 de febrero de 2013

El negocio donde esta? , explicando el primer mercado

Ya pronto acostarme no quería olvidarle de mi primer segmentos de mercado y aquí va.

Las personas que tienen una pagina web y no tienen personas a su cargo para actualizarla ya sea por tiempo o por X razón , usaran el servicio web proporcionado por mi plataforma para que automáticamente se creen artículos sobre la pagina de la persona , dada las keywords , se puede también hacer una análisis de keywords para determinar cuales son las de la pagina web , por ejemplo una pagina de emprendimiento podría tener no se , 50 publicaciones diarias automáticas dadas una combinación de keywords , donde los artículos provienen de mi pagina y tener por ejemplo un programa hecho en java que la persona simplemente tenga que ejecutar para actualizar sus paginas , por ejemplo para blogger , un programa java que dado el usuario y la contraseña de la persona se valida en el sitio y se crean los posts .

Construyendo mi lista negra basada en aprendizaje supervisado

En la mayoría de las paginas webs , las palabras que están escritas dirigiéndose a una persona , osea tipo conversación tuteando , son frases que infunden al usuario hacer acciones sobre la pagina y no están dentro del contexto de la publicación , de acuerdo a esto he desarrollado un algoritmo de aprendizaje supervisado que detecta el % de "TUTEO" de una frase , la cual permite definir si la frase corresponde a la pagina o si corresponde al texto del redactor de la pagina , se supervisa cuales frases se consideran en la lista negra y se obtiene un texto , luego se valida si alguna frase no hace parte del texto , despues el algoritmo calcula porque no hace parte del texto , como un "debe ser por X razón y lo guarda en su lista negra , por ahora he probado con 579 paginas de temas aleatorios.

Lista negra:

Registrate

.com
-
wikipedia
wiki
®
{
}
[
]
title=
&
descargar
publicar en
/
|
vota
creative commons
www.
http://
(
)
registrate
all rights reserved
rss
debes iniciar
ver todos los comentarios
te
>

Keyword : Musica para sordos.

Texto

¿Como explicar la evolucion de la musica desde Bach a los Beatles a alguien que nunca va a poder oir sus obras?
“La desesperanza esta fundada en lo que sabemos, que es nada; y la esperanza esta fundada sobre lo que ignoramos, que es todo.”
Investigadores de la Universidad Pompeu Fabra se han propuesto que estas personas puedan disfrutar de la musica como el resto y han iniciado el proyecto musIC.
El sabado dieron un concierto para implantados cocleares en el CaixaForum de Barcelona.
Los comentarios a los articulos publicados son responsabilidad exclusiva de sus autores.
En sus conciertos, la musica, ademas de sonidos, ofrece vibraciones y un espectaculo de luces que se mueven al son del ritmo.
Una forma de acercar la experiencia de la musica en directo a todo el mundo.
Ver01:48 Chapman a la BBC: "¿Quien dijo que yo era una espia?"
Crucero: "Dejaron de ser vacaciones.
La respuesta es si.
Su caso no es severo, porque identifica sonidos.
En mi primer ano con la asignatura de musica en el C.P.
La solucion la halle en globos de plastico y en la predisposicion de la alumna.
Cada vez que dejaba de emitir el sonido que indicaba la duracion de la figura, mi mano apretaba la mano que le quedaba libre, para indicarle que habia acabado, asi ella lo repetia y seguia las indicaciones por las vibraciones en el globo y por las ordenes de finalizacion con la mano.
Primero me fije un valor de referencia en su tonalidad natural y lo clasifique como la nota "sol", al principio solo trabajaba "sol" con figuras.
Una vez aprehendido empece con "mi", para que Sumia aprendiera el solfeo relativo utilizaba dos globos, de manera que mientras yo sujetaba uno de ellos emitia la misma nota que su "sol" relativo y luego iba bajando hasta el "mi " a la vez que ella.

miércoles, 13 de febrero de 2013

Lista de generadores resumenes online , la competencia?

Aquí hay una lista de generadores de resúmenes , estos realizan un proceso muy muy simple , se coloca el texto que se quiere resumir y se selecciona aleatoria mente las frases, conclusion , se genera un resumen extracto con ningún proceso de pln , competencia? no creo pero igual son herramientas que se usan . se podría crear una versión online de radex con el fin de crear un resumen abstracción.

http://es.shvoong.com/summarizer/
http://freesummarizer.com/
http://www.textcompactor.com/
http://www.tools4noobs.com/summarize/
http://smmry.com
http://ies.intellexer.com
http://topicmarks.com -> descontinuado
http://www.wikisummarizer.com/Pages/Default.aspx

Pruebas Test Stress para Radex vs Google Desktop,File Seek

Se creo una carpeta con 132 archivos pdf con un peso total de 469 Megas .Los temas que contenían los archivos se enumeran de la siguiente manera.

* 34 Pdfs sobre PLN en general
* 86 Pdfs sobre Enterprise Java
* 1 Pdf sobre Análisis semántico latente
* 1 Pdf sobre Textual Entailment
* 1 Pdf Sobre Enertex y Cortex
* 1 Pdf sobre Metrica de Rouge
* 3 Pdfs sobre WordNet
* 2 Pdfs sobre WSD y stop words
* 1 Pdf sobre Levenshtein distance y similitud semantica
* 4 Pdfs sobre LexRank y TexRank

Se instalo Google Desktop
Se instalo File Seek
Se instalo Radex

Se realizaron 53 consultas , pidiéndole a los 3 programas recién instalados que buscaran en la carpeta donde estaban los archivos ,Para google desktop se agrego previamente la carpeta en opciones:

Buscar ubicaciones

Ubicación	Estado	Acción

Indexa carpetas de red y unidades adicionales. Todas las unidades fijas se indexan de forma predeterminada.
Añadir la unidad o carpeta que deseas incluir en la búsqueda

Para FileSeek y Radex se coloco la carpeta donde debían realizar el proceso de búsqueda.
Para las búsquedas de contenidos seleccionados aleatoriamente ,los resultados fueron los siguientes

No Busqueda	Keyword	Radex	Google Desktop	FileSeek
1	groovybooking	X
2	Bijection	X
3	Orchestration	X
4	@Restrict	X
5	Groovy	X
6	Classes	X
7	Seam	X
8	return	X		X
9	Context search priority	X
10	portal environment	X
11	LSA	X
12	Chumky	X
13	POS tagging	X
14	corpus	X
15	Web semantic	X		X
16	Reentrenamiento	X		X
17	Supervisado	X		X
18	No supervisado	X		X
19	Metodos basados en conocimiento	X
20	Metodos basados en corpus	X
21	Summarizer	X
22	abstract	X
23	Ajax	X
24	perl	X
25	Summary	X
26	Summary lenght	X
27	Mono document	X
28	Multidocument	X
29	Maxima entropia	X
30	Regresion logistica	X
31	redundancia	X
32	deteccion de redundancia	X
33	Edmonds, 2000; Mihalcea, 2003	X
34	el CNA	X
35	Ng y Lee, 1996	X
36	EJB 3.0	X		X
37	Esquema de Reentrenamiento	X
38	LB-SDM	X
39	el umbral	X
40	Finalmente	X	X	X
41	senseval-2	X	X	X
42	nuevos experimentos	X	X	X
43	NAACL	X
44	Hinrich	X
45	garantias	X
46	Stateful session beans	X	X
47	JSF action listener	X
48	create=true	X
49	15%	X
50	Mihalcea	X
51	>org.jboss.seam.ejb.SeamInterceptor	X
52	Existe un acuerdo mas o menos amplio en que la falta de un corpus apropiado y suﬁ- ciente grande representa un obst´aculo para continuar progresando en este area. Es dif´ıcil conseguir un corpus anotado con sentidos para aprendizaje autom´atico (Ng y Lee, 1996; Edmonds, 2000; Mihalcea, 2003), y los avances y esfuerzos recientes en su adquisicion autom´atica no hacen sino reforzar su importancia para este desarrollo crucial.	X
53	QARLA	X	X
54	SweSum	X	X

Tiempo Estimado realizando las consultas : 34 Minutos
Razones :

Google Desktop

Nota: resultados parciales únicamente (0% completado). indexación única en curso. La indexación se lleva a cabo mientras el equipo se encuentra inactivo. Los mensajes de Outlook se indexan sólo si dicha aplicación se ha iniciado.

Tu consulta "X" no ha obtenido ningún resultado.

Sugerencias:

- Prueba la búsqueda web de Google para obtener resultados de Internet.
- Comprueba que las palabras no contengan faltas de ortografía.
- Intenta utilizar palabras clave más generales.
- Intenta utilizar otras palabras clave.
- Intenta utilizar un número inferior de palabras clave.

FileSeek:

No se puede implementar el método o la operación.

Radex:

Se generaba un PDF por cada resultado de busqueda.

Conclusiones:

Google desktop es una muy buena herramienta , el problema es que necesita indexar todo el computador para obtener resultados satisfactorios , lo que no lo hace practico.

Fileseek:

Realiza busquedas basadas en palabras iguales , no diferencia entre tildes ni UTF-8 , ni mayúsculas ni minúsculas.

Radex:

Resultados satisfactorios.

hay ciertos problemas de repetición de contenido que encuentra y solo devuelve el primer resultado de búsqueda del documento.

Estos problemas se solucionaran en el fin de semana.

Se necesitan hacer pruebas mas objetivas con mas programas y con muchos mas archivos.

Merci.

lunes, 11 de febrero de 2013

Actualización

La desambiguación no es el problema en este caso , se debe realizar el proceso de selección y similitud semántica .

Empezar el proceso de similitud semantica bajo entropia basada en logica difusa. 23 Gigas

(Update) Solucionado Scrapping web

Ya obtengo todo lo de la web ahora aumentar el tamaño del stopwords , tiempo de respuesta : 2 horas

Posibles soluciones

Necesito mejorar el scrapper web , esta es la misión por ahora ,la parte del parafraseo con LSA y RTS ya esta "resuelta ", necesito :

*Mejorar los bots de scrapping
* Crear un detector de ontologias.

domingo, 10 de febrero de 2013

El sistema de WSD basado en maxima entropia

El modelado con ME proporciona un marco para la integraci´on de informaci´on para clasiﬁcaci´on desde muchas fuentes heterogeneas (Manning y Sch¨utze, 1999). Los modelos de probabilidad de ME han sido utilizados con ´exito en tareas del PLN tales comoPOS tagging o detecci´on de los l´ımites de la
frase (Ratnaparkhi, 1998).El m´etodo de WSD usado para este trabajo est´a basado en los modelos de probabilidadcondicional de ME, lo que ha resultado enuna implementaci´on de un m´etodo supervisado de aprendizaje autom´atico que obtieneclasiﬁcadores de sentidos de palabras a partir de un corpus anotado. Se entiende comoclasiﬁcador obtenido por esta t´ecnica comoun conjunto de coeﬁcientes que se estiman mediante un algoritmo de optimizaci´on, cadauno asociado a un atributo (feature) observado en el corpus de entrenamiento. El principal objetivo es obtener una distribuci´on deprobabilidad que maximice la entrop´ıa, estoes, asumiendo la m´axima ignorancia sobre losdatos de entrenamiento de tal forma que no seinduce ning´un conocimiento que no est´e propiamente en los datos.Nuestro sistema (que denominaremos MEWSD) se basa en una implementaci´on propiaen C++, cuyos detalles se pueden consultar en (Su´arez y Palomar, 2002) y (Su´arez, 2004).
http://adimen.si.ehu.es/~rigau/publications/sepln05-srp.pdf

un resumidor extractivo bastante simple

http://www.textcompactor.com/

Blog con PLN , orientado mas a la indexación pero con enlaces interesantes

http://automatic-analysis-gido.blogspot.com

Selective Analysis for Automatic Abstracting: Evaluating

Description: In any domain, the use of information systems leads to the problem of converting the existing archives of paper documents into a format suitable for the computerized system. In this area, most of the attention has probably been given to strutured document analysis, i.e. the automated analysis of business document such as letters, forms, documentation, manuals etc., including the well-known area of character recognition. But document analysis is also a powerful tool in technical domains such as architecture, where large quantitities of drawings of various kinds are available on paper. In this paper we shortly present the state of the art in technical drawing analysis and we investigate the suitably of document analysis to the conversion from paper to architectural databases

Document analysis : a way to integrate existing paper information in architectural databases

D.C Title: Document analysis : a way to integrate existing paper information in architectural databases

D.C Creator: Tombre K. ; Paul J.C.

D.C Subject: Automatic analysis ; Printed document ; Formatting ; Automatic recognition ; Industrial drawing ; Graphic document ; Case study ; General study ; Document processing ; Documentation ; Documentation data processing

D.C Description: In any domain, the use of information systems leads to the problem of converting the existing archives of paper documents into a format suitable for the computerized system. In this area, most of the attention has probably been given to strutured document analysis, i.e. the automated analysis of business document such as letters, forms, documentation, manuals etc., including the well-known area of character recognition. But document analysis is also a powerful tool in technical domains such as architecture, where large quantitities of drawings of various kinds are available on paper. In this paper we shortly present the state of the art in technical drawing analysis and we investigate the suitably of document analysis to the conversion from paper to architectural databases

D.C Publisher: CNRS

D.C Contributor

D.C Date: 1994

D.C Type: Report

D.C Format: book

D.C Identifier : INIST-CNRS, Cote INIST : RP 13239

D.C Source

D.C Language: en

D.C Relation

D.C Coverage

D.C Rights: Copyright 2006 INIST-CNRS

Referencias sobre investigaciones de generación de resumenes hechas por el que hizo las conclusiones del post anterior

References

Title: Second Conference on Applied Natural Language Processing
Author: Association of Computational Linguistics
Source:Association of Computational Linguistics
Usefulness: