Trabajo de grado en procesamiento del lenguaje natural: febrero 2013

martes, 26 de febrero de 2013

Por fin versiones estables de todos los servicios

Muchas horas sin dormir han valido la pena, ya esta SquidSearch,Radex y AutoCM , faltan pequeños detalles pero ya casi esta toda la infrastructura.

Tenemos 17.8 Gigas en frases,noticias,articulos y combinación de frases y coherencias .

viernes, 15 de febrero de 2013

El negocio donde esta? , explicando el primer mercado

Ya pronto acostarme no quería olvidarle de mi primer segmentos de mercado y aquí va.

Las personas que tienen una pagina web y no tienen personas a su cargo para actualizarla ya sea por tiempo o por X razón , usaran el servicio web proporcionado por mi plataforma para que automáticamente se creen artículos sobre la pagina de la persona , dada las keywords , se puede también hacer una análisis de keywords para determinar cuales son las de la pagina web , por ejemplo una pagina de emprendimiento podría tener no se , 50 publicaciones diarias automáticas dadas una combinación de keywords , donde los artículos provienen de mi pagina y tener por ejemplo un programa hecho en java que la persona simplemente tenga que ejecutar para actualizar sus paginas , por ejemplo para blogger , un programa java que dado el usuario y la contraseña de la persona se valida en el sitio y se crean los posts .

Construyendo mi lista negra basada en aprendizaje supervisado

En la mayoría de las paginas webs , las palabras que están escritas dirigiéndose a una persona , osea tipo conversación tuteando , son frases que infunden al usuario hacer acciones sobre la pagina y no están dentro del contexto de la publicación , de acuerdo a esto he desarrollado un algoritmo de aprendizaje supervisado que detecta el % de "TUTEO" de una frase , la cual permite definir si la frase corresponde a la pagina o si corresponde al texto del redactor de la pagina , se supervisa cuales frases se consideran en la lista negra y se obtiene un texto , luego se valida si alguna frase no hace parte del texto , despues el algoritmo calcula porque no hace parte del texto , como un "debe ser por X razón y lo guarda en su lista negra , por ahora he probado con 579 paginas de temas aleatorios.

Lista negra:

Registrate

.com
-
wikipedia
wiki
®
{
}
[
]
title=
&
descargar
publicar en
/
|
vota
creative commons
www.
http://
(
)
registrate
all rights reserved
rss
debes iniciar
ver todos los comentarios
te
>

Keyword : Musica para sordos.

Texto

¿Como explicar la evolucion de la musica desde Bach a los Beatles a alguien que nunca va a poder oir sus obras?
“La desesperanza esta fundada en lo que sabemos, que es nada; y la esperanza esta fundada sobre lo que ignoramos, que es todo.”
Investigadores de la Universidad Pompeu Fabra se han propuesto que estas personas puedan disfrutar de la musica como el resto y han iniciado el proyecto musIC.
El sabado dieron un concierto para implantados cocleares en el CaixaForum de Barcelona.
Los comentarios a los articulos publicados son responsabilidad exclusiva de sus autores.
En sus conciertos, la musica, ademas de sonidos, ofrece vibraciones y un espectaculo de luces que se mueven al son del ritmo.
Una forma de acercar la experiencia de la musica en directo a todo el mundo.
Ver01:48 Chapman a la BBC: "¿Quien dijo que yo era una espia?"
Crucero: "Dejaron de ser vacaciones.
La respuesta es si.
Su caso no es severo, porque identifica sonidos.
En mi primer ano con la asignatura de musica en el C.P.
La solucion la halle en globos de plastico y en la predisposicion de la alumna.
Cada vez que dejaba de emitir el sonido que indicaba la duracion de la figura, mi mano apretaba la mano que le quedaba libre, para indicarle que habia acabado, asi ella lo repetia y seguia las indicaciones por las vibraciones en el globo y por las ordenes de finalizacion con la mano.
Primero me fije un valor de referencia en su tonalidad natural y lo clasifique como la nota "sol", al principio solo trabajaba "sol" con figuras.
Una vez aprehendido empece con "mi", para que Sumia aprendiera el solfeo relativo utilizaba dos globos, de manera que mientras yo sujetaba uno de ellos emitia la misma nota que su "sol" relativo y luego iba bajando hasta el "mi " a la vez que ella.

miércoles, 13 de febrero de 2013

Lista de generadores resumenes online , la competencia?

Aquí hay una lista de generadores de resúmenes , estos realizan un proceso muy muy simple , se coloca el texto que se quiere resumir y se selecciona aleatoria mente las frases, conclusion , se genera un resumen extracto con ningún proceso de pln , competencia? no creo pero igual son herramientas que se usan . se podría crear una versión online de radex con el fin de crear un resumen abstracción.

http://es.shvoong.com/summarizer/
http://freesummarizer.com/
http://www.textcompactor.com/
http://www.tools4noobs.com/summarize/
http://smmry.com
http://ies.intellexer.com
http://topicmarks.com -> descontinuado
http://www.wikisummarizer.com/Pages/Default.aspx

Pruebas Test Stress para Radex vs Google Desktop,File Seek

Se creo una carpeta con 132 archivos pdf con un peso total de 469 Megas .Los temas que contenían los archivos se enumeran de la siguiente manera.

* 34 Pdfs sobre PLN en general
* 86 Pdfs sobre Enterprise Java
* 1 Pdf sobre Análisis semántico latente
* 1 Pdf sobre Textual Entailment
* 1 Pdf Sobre Enertex y Cortex
* 1 Pdf sobre Metrica de Rouge
* 3 Pdfs sobre WordNet
* 2 Pdfs sobre WSD y stop words
* 1 Pdf sobre Levenshtein distance y similitud semantica
* 4 Pdfs sobre LexRank y TexRank

Se instalo Google Desktop
Se instalo File Seek
Se instalo Radex

Se realizaron 53 consultas , pidiéndole a los 3 programas recién instalados que buscaran en la carpeta donde estaban los archivos ,Para google desktop se agrego previamente la carpeta en opciones:

Buscar ubicaciones

Ubicación	Estado	Acción

Indexa carpetas de red y unidades adicionales. Todas las unidades fijas se indexan de forma predeterminada.
Añadir la unidad o carpeta que deseas incluir en la búsqueda

Para FileSeek y Radex se coloco la carpeta donde debían realizar el proceso de búsqueda.
Para las búsquedas de contenidos seleccionados aleatoriamente ,los resultados fueron los siguientes

No Busqueda	Keyword	Radex	Google Desktop	FileSeek
1	groovybooking	X
2	Bijection	X
3	Orchestration	X
4	@Restrict	X
5	Groovy	X
6	Classes	X
7	Seam	X
8	return	X		X
9	Context search priority	X
10	portal environment	X
11	LSA	X
12	Chumky	X
13	POS tagging	X
14	corpus	X
15	Web semantic	X		X
16	Reentrenamiento	X		X
17	Supervisado	X		X
18	No supervisado	X		X
19	Metodos basados en conocimiento	X
20	Metodos basados en corpus	X
21	Summarizer	X
22	abstract	X
23	Ajax	X
24	perl	X
25	Summary	X
26	Summary lenght	X
27	Mono document	X
28	Multidocument	X
29	Maxima entropia	X
30	Regresion logistica	X
31	redundancia	X
32	deteccion de redundancia	X
33	Edmonds, 2000; Mihalcea, 2003	X
34	el CNA	X
35	Ng y Lee, 1996	X
36	EJB 3.0	X		X
37	Esquema de Reentrenamiento	X
38	LB-SDM	X
39	el umbral	X
40	Finalmente	X	X	X
41	senseval-2	X	X	X
42	nuevos experimentos	X	X	X
43	NAACL	X
44	Hinrich	X
45	garantias	X
46	Stateful session beans	X	X
47	JSF action listener	X
48	create=true	X
49	15%	X
50	Mihalcea	X
51	>org.jboss.seam.ejb.SeamInterceptor	X
52	Existe un acuerdo mas o menos amplio en que la falta de un corpus apropiado y suﬁ- ciente grande representa un obst´aculo para continuar progresando en este area. Es dif´ıcil conseguir un corpus anotado con sentidos para aprendizaje autom´atico (Ng y Lee, 1996; Edmonds, 2000; Mihalcea, 2003), y los avances y esfuerzos recientes en su adquisicion autom´atica no hacen sino reforzar su importancia para este desarrollo crucial.	X
53	QARLA	X	X
54	SweSum	X	X

Tiempo Estimado realizando las consultas : 34 Minutos
Razones :

Google Desktop

Nota: resultados parciales únicamente (0% completado). indexación única en curso. La indexación se lleva a cabo mientras el equipo se encuentra inactivo. Los mensajes de Outlook se indexan sólo si dicha aplicación se ha iniciado.

Tu consulta "X" no ha obtenido ningún resultado.

Sugerencias:

- Prueba la búsqueda web de Google para obtener resultados de Internet.
- Comprueba que las palabras no contengan faltas de ortografía.
- Intenta utilizar palabras clave más generales.
- Intenta utilizar otras palabras clave.
- Intenta utilizar un número inferior de palabras clave.

FileSeek:

No se puede implementar el método o la operación.

Radex:

Se generaba un PDF por cada resultado de busqueda.

Conclusiones:

Google desktop es una muy buena herramienta , el problema es que necesita indexar todo el computador para obtener resultados satisfactorios , lo que no lo hace practico.

Fileseek:

Realiza busquedas basadas en palabras iguales , no diferencia entre tildes ni UTF-8 , ni mayúsculas ni minúsculas.

Radex:

Resultados satisfactorios.

hay ciertos problemas de repetición de contenido que encuentra y solo devuelve el primer resultado de búsqueda del documento.

Estos problemas se solucionaran en el fin de semana.

Se necesitan hacer pruebas mas objetivas con mas programas y con muchos mas archivos.

Merci.

lunes, 11 de febrero de 2013

Actualización

La desambiguación no es el problema en este caso , se debe realizar el proceso de selección y similitud semántica .

Empezar el proceso de similitud semantica bajo entropia basada en logica difusa. 23 Gigas

(Update) Solucionado Scrapping web

Ya obtengo todo lo de la web ahora aumentar el tamaño del stopwords , tiempo de respuesta : 2 horas

Posibles soluciones

Necesito mejorar el scrapper web , esta es la misión por ahora ,la parte del parafraseo con LSA y RTS ya esta "resuelta ", necesito :

*Mejorar los bots de scrapping
* Crear un detector de ontologias.

domingo, 10 de febrero de 2013

El sistema de WSD basado en maxima entropia

El modelado con ME proporciona un marco para la integraci´on de informaci´on para clasiﬁcaci´on desde muchas fuentes heterogeneas (Manning y Sch¨utze, 1999). Los modelos de probabilidad de ME han sido utilizados con ´exito en tareas del PLN tales comoPOS tagging o detecci´on de los l´ımites de la
frase (Ratnaparkhi, 1998).El m´etodo de WSD usado para este trabajo est´a basado en los modelos de probabilidadcondicional de ME, lo que ha resultado enuna implementaci´on de un m´etodo supervisado de aprendizaje autom´atico que obtieneclasiﬁcadores de sentidos de palabras a partir de un corpus anotado. Se entiende comoclasiﬁcador obtenido por esta t´ecnica comoun conjunto de coeﬁcientes que se estiman mediante un algoritmo de optimizaci´on, cadauno asociado a un atributo (feature) observado en el corpus de entrenamiento. El principal objetivo es obtener una distribuci´on deprobabilidad que maximice la entrop´ıa, estoes, asumiendo la m´axima ignorancia sobre losdatos de entrenamiento de tal forma que no seinduce ning´un conocimiento que no est´e propiamente en los datos.Nuestro sistema (que denominaremos MEWSD) se basa en una implementaci´on propiaen C++, cuyos detalles se pueden consultar en (Su´arez y Palomar, 2002) y (Su´arez, 2004).
http://adimen.si.ehu.es/~rigau/publications/sepln05-srp.pdf

un resumidor extractivo bastante simple

http://www.textcompactor.com/

Blog con PLN , orientado mas a la indexación pero con enlaces interesantes

http://automatic-analysis-gido.blogspot.com

Selective Analysis for Automatic Abstracting: Evaluating

Description: In any domain, the use of information systems leads to the problem of converting the existing archives of paper documents into a format suitable for the computerized system. In this area, most of the attention has probably been given to strutured document analysis, i.e. the automated analysis of business document such as letters, forms, documentation, manuals etc., including the well-known area of character recognition. But document analysis is also a powerful tool in technical domains such as architecture, where large quantitities of drawings of various kinds are available on paper. In this paper we shortly present the state of the art in technical drawing analysis and we investigate the suitably of document analysis to the conversion from paper to architectural databases

Document analysis : a way to integrate existing paper information in architectural databases

D.C Title: Document analysis : a way to integrate existing paper information in architectural databases

D.C Creator: Tombre K. ; Paul J.C.

D.C Subject: Automatic analysis ; Printed document ; Formatting ; Automatic recognition ; Industrial drawing ; Graphic document ; Case study ; General study ; Document processing ; Documentation ; Documentation data processing

D.C Description: In any domain, the use of information systems leads to the problem of converting the existing archives of paper documents into a format suitable for the computerized system. In this area, most of the attention has probably been given to strutured document analysis, i.e. the automated analysis of business document such as letters, forms, documentation, manuals etc., including the well-known area of character recognition. But document analysis is also a powerful tool in technical domains such as architecture, where large quantitities of drawings of various kinds are available on paper. In this paper we shortly present the state of the art in technical drawing analysis and we investigate the suitably of document analysis to the conversion from paper to architectural databases

D.C Publisher: CNRS

D.C Contributor

D.C Date: 1994

D.C Type: Report

D.C Format: book

D.C Identifier : INIST-CNRS, Cote INIST : RP 13239

D.C Source

D.C Language: en

D.C Relation

D.C Coverage

D.C Rights: Copyright 2006 INIST-CNRS

Referencias sobre investigaciones de generación de resumenes hechas por el que hizo las conclusiones del post anterior

References

Title: Second Conference on Applied Natural Language Processing
Author: Association of Computational Linguistics
Source:Association of Computational Linguistics
Usefulness: