lunes, 1 de abril de 2013

Disicosum y cortex


En cuanto a las unidades l´exicas, Disicosum
incluye reglas de dos tipos:
Reglas que otorgan m´as peso a las oraciones
que contienen: 1) palabras del t´ıtulo principal
del art´ıculo (excepto stopwords), 2) formas
verbales en primera persona del plural,
3) palabras incluidas en una lista que contiene
verbos y sustantivos del dominio m´edico
que pueden ser pertinentes para el resumen
(por ejemplo, analizar, evaluar, objetivo,
estudio, etc.) y 4) cualquier informaci
´on num´erica en las secciones de Pacientes
y m´etodos y Resultados.
Reglas de eliminaci´on de oraciones que contienen
unidades que se refieren a: 1) tablas
o figuras, 2) aspectos estad´ısticos o computacionales,
3) trabajos anteriores y 4) definiciones.
Por ´ultimo, el modelo incluye reglas discursivas
y reglas que combinan algunos aspectos de la
estructura discursiva con la estructura sint´actica
y comunicativa (reglas DISICO). Para formalizar
dichas reglas el modelo emplea la Rhetorical
Structure Theory (RST) (Mann and Thompson,
1988) y la Meaning-Text Theory (MTT)
(Mel’cuk, 1988; Mel’cuk, 2001). La RST es una
teor´ıa de organizaci´on del texto que caracteriza
su estructura como un ´arbol jer´arquico que
contiene elementos (n´ucleos [N] y sat´elites [S]) ligados
mediante relaciones discursivas (como, por
ejemplo, Elaboraci´on, Concesi´on, Ant´ıtesis, Condici
´on, Contraste, Background, etc.). En la figura
3 se muestra un ejemplo de la representaci´on discursiva
de la RST en forma de ´arbol (con dos
relaciones: Elaboraci´on y Background).
La MTT es una teor´ıa que integra diversos aspectos
del lenguaje. Disicosum emplea, por un
lado, elementos de la sintaxis de dependencias para
representar una oraci´on como un ´arbol donde
las unidades l´exicas son los nodos y las relaciones
entre ellas son actanciales (ACT), atributivas
(ATTR), apenditivas (APPEND) y coordinativas
(COORD). Por otro lado, Disicosum emplea la
distinci´on ente Tema y Rema, que es parte de
Figura 3: Ejemplo de ´arbol discursivo con relaciones
de la RST.
la estructura comunicativa de la MTT. Algunos
ejemplos de las reglas Disicosum son:4,5
IF S is satelliteREFORMULATION R
THEN ELIMINATE S
Ej. [Se incluyeron s´olo pacientes estables.]N
[Es decir, se consideraron pacientes que no
hab´ıan precisado cambiar su medicaci´on habitual
en los ´ultimos 15 d´ıas y cl´ınicamente
no refer´ıan un empeoramiento importante.]S
IF S is satelliteBACKGROUND B
THEN ELIMINATE S
Ej. [La quimioprofilaxis (QP) antituberculosa
es una de las principales intervenciones
en la cadena de actuaciones para la prevenci
´on de la tuberculosis (TBC).]S [El objetivo
de este estudio es conocer el grado
de cumplimiento y la tolerancia terap´eutica
de la QP antituberculosa en nuestro medio,
as´ı como describir y analizar sus factores
condicionantes.]N
IF S is satelliteELABORATION El
AND S elaborates on the Theme of the nucleus
of El
THEN ELIMINATE S
Ej. [Como grupo de control se emple´o el formado
por 377 mujeres sanas.]N [Este grupo
se obtuvo mediante selecci´on aleatoria entre
mujeres que entre 1989 y 1991 hab´ıan dado
a luz en nuestro hospital.]S

martes, 19 de marzo de 2013

lunes, 11 de marzo de 2013

conceptos segun magister javeriana


Preparaci on
Lematizaci on: Seg un [Hotho et al., 2005] es un m etodo en el cual los verbos se
transforman a su forma ra z y los nombres a su forma singular.
Segmentaci on: La Segmentaci on o tokenization que es el proceso de dividir un

ujo de texto en palabras, frases, s mbolos o cualquier otro elemento signi cativo,
a este elemento se le llama token.
Eliminaci on Palabras irrelevantes: Seg un [Hotho et al., 2005], en este proceso
se eliminan las palabras con poca informaci on como art culos, preposiciones etc.
Aun m as, es la eliminaci on de palabras que ocurren frecuentemente por lo cual se
puede a rmar que contiene informaci on irrelevante
Etiquetado: El etiquetado presenta el etiquetado manual donde un experto iden-
ti ca los t erminos claves o se etiqueta usando UMLS [US-NLM, 2011] o Sistema
Uni cado de Lenguaje M edico, que es un conjunto de archivos y software que
re une m ultiples t erminos y vocabularios asociados a areas de la salud y biom edica,
estandariz andolas para permitir la interoperabilidad entre sistemas inform aticos.
Clasi caci on/Detecci on
Expresiones Regulares: Una expresi on regular proporciona medios concisos y

exibles para que \coincidan" (especi car y reconocer) las cadenas de texto, como
los caracteres especiales, palabras o patrones de caracteres
Propuesto: Esta rama incluye los proyectos que proponen sus propios algoritmos.
Modelos Ocultos de Markov: Como algoritmo innovador se expone los Modelos
ocultos de Markov el cual es un modelo estad stico para problemas lineales como
secuencias o series de tiempo y ha sido ampliamente usado en aplicaciones de
reconocimiento de habla.
Redes Bayesianas: Basado en [Antal et al., 2001, Antal et al., 2000], las redes
Bayesianas son b asicamente un grafo dirigido ac clico que consta de un conjunto
de nodos, uno por cada variable aleatoria. Un conjunto de arcos dirigidos que
conectan los nodos; si hay un arco de X a Y se dice que X es un padre de Y.
Un arco entre X y Y signi ca una in
uencia directa de X sobre Y, y es tarea
de un experto de nir estas relaciones de dependencia. Cada nodo Xi contiene la
distribuci on probabilidad condicional,.
Arboles de decisi on: Los arboles de decisi on, adecuados para la clasi caci on,
seg un [Hotho et al., 2005], son un conjunto de condiciones organizadas en una es-
tructura jer arquica, de tal manera que la decisi on nal a tomar se pueda determinar
siguiendo las condiciones que se cumplen desde la ra z del arbol hasta alguna de
sus hojas. Cada nodo interior contiene una pregunta sobre un atributo concreto
(con un hijo por cada posible respuesta) y cada nodo hoja se re ere a una decisi on
(clasi caci on).
7Otra rama descrita son las herramientas, las cuales describen la herramienta que soporta
el an alisis de historias cl nicas electr onicas:
GATE: General Architecture for Text Engineering [Cunningham et al., 2011] es una
infraestructura para el desarrollo y despliegue de componentes de software que procesan
lenguaje humano. Esta herramienta de mineria de texto esta disponible como software
libre.
Link Grammar Parser: Link Grammar Parser, es un analizador sint actico para el
idioma Ingl es, seg un [Sleator and Temperley, 1991, Sleator and Temperley, 1993] se ba-
sa en la gram atica de enlace, una teor a original de la sintaxis del Ingl es. Dada una
sentencia, el sistema le asigna una estructura sint actica, que consiste en un conjunto
de enlaces etiquetados conectando pares de palabras. El analizador tambi en produce
una representaci on constituyente"de una frase (que muestra las frases nominales, frases
verbales, etc.).
EMERSE: The Electronic Medical Record Search Engine [Hanauer, 2006], es un poten-
te motor de b usqueda para documentos con texto libre en historias cl nicas electr onicas.
Este ofrece m ultiples opciones para la creaci on de b usquedas complejas.
Propia: Constituye una herramienta desarrollada para un objetivo en particular dentro
del an alisis de historias cl nicas, estos contemplan implementaciones con alguna de las
herramientas mencionadas o implementaci on de algoritmos o procesos de miner a de
texto

martes, 26 de febrero de 2013

Por fin versiones estables de todos los servicios

Muchas horas sin dormir han valido la pena, ya esta SquidSearch,Radex y AutoCM , faltan pequeños detalles pero ya casi esta toda la infrastructura.


Tenemos 17.8 Gigas en frases,noticias,articulos y combinación de frases y coherencias .

viernes, 15 de febrero de 2013

El negocio donde esta? , explicando el primer mercado

Ya pronto acostarme no quería olvidarle de mi primer segmentos de mercado y aquí va.

Las personas que tienen una pagina web y no tienen personas a su cargo para actualizarla ya sea por tiempo o por X razón , usaran el servicio web proporcionado por mi plataforma para que automáticamente se creen  artículos sobre la pagina de la persona , dada las keywords , se puede también hacer una análisis de keywords para determinar cuales son las de la pagina web , por ejemplo una pagina de emprendimiento podría tener no se , 50 publicaciones diarias automáticas dadas una combinación de keywords , donde los artículos provienen de mi pagina y tener por ejemplo un programa hecho en java que la persona simplemente tenga que ejecutar para actualizar sus paginas , por ejemplo para blogger , un programa java que dado el usuario y la contraseña de la persona se valida en el sitio y se crean los posts .

Construyendo mi lista negra basada en aprendizaje supervisado

En la  mayoría de las paginas webs , las palabras que están escritas dirigiéndose a una persona , osea tipo conversación tuteando , son frases que infunden al usuario hacer acciones sobre la pagina y no están dentro del contexto de la publicación , de acuerdo a esto he desarrollado un algoritmo de aprendizaje supervisado que detecta el % de "TUTEO" de una frase , la cual permite definir si la frase corresponde a la pagina o si corresponde al texto del redactor de la pagina , se supervisa cuales frases se consideran en la lista negra y se obtiene un texto , luego se valida si alguna frase  no hace parte del texto , despues el algoritmo calcula porque no hace parte del texto , como un "debe ser por X razón  y lo guarda en su lista negra , por ahora he probado con 579 paginas de temas aleatorios.


Lista negra:

Registrate

.com
-
wikipedia
wiki
®
{
}
[
]
title=
&
descargar
publicar en
/
|
vota
creative commons
www.
http://
(
)
registrate
all rights reserved
rss
debes iniciar
ver todos los comentarios
te
>

                                                             Keyword : Musica para sordos.

                                                                          Texto

¿Como explicar la evolucion de la musica desde Bach a los Beatles a alguien que nunca va a poder   oir sus obras?
“La desesperanza esta fundada en lo que sabemos, que es nada; y la esperanza esta fundada sobre lo que ignoramos, que es todo.”
Investigadores de la Universidad Pompeu Fabra se han propuesto que estas personas puedan disfrutar de la musica como el resto y han iniciado el proyecto musIC.
El sabado dieron un concierto para implantados cocleares en el CaixaForum de Barcelona.
Los comentarios a los articulos publicados son responsabilidad exclusiva de sus autores.
En sus conciertos, la musica, ademas de sonidos, ofrece vibraciones y un espectaculo de luces que se mueven al son del ritmo.
Una forma de acercar la experiencia de la musica en directo a todo el mundo.
Ver01:48 Chapman a la BBC: "¿Quien dijo que yo era una espia?"
Crucero: "Dejaron de ser vacaciones.
La respuesta es si.
Su caso no es severo, porque identifica sonidos.
En mi primer ano con la asignatura de musica en el C.P.
La solucion la halle en globos de plastico y en la predisposicion de la alumna.
Cada vez que dejaba de emitir el sonido que indicaba la duracion de la figura, mi mano apretaba la mano que le quedaba libre, para indicarle que habia acabado, asi ella lo repetia y seguia las indicaciones por las vibraciones en el globo y por las ordenes de finalizacion con la mano.
Primero me fije un valor de referencia en su tonalidad natural y lo clasifique como la nota "sol", al principio solo trabajaba "sol" con figuras.
Una vez aprehendido empece con "mi", para que Sumia aprendiera el solfeo relativo utilizaba dos globos, de manera que mientras yo sujetaba uno de ellos emitia la misma nota que su "sol" relativo y luego iba bajando hasta el "mi " a la vez que ella.







miércoles, 13 de febrero de 2013

Lista de generadores resumenes online , la competencia?

Aquí hay una lista de generadores de resúmenes , estos realizan un proceso muy muy simple , se coloca el texto que se quiere resumir y se selecciona aleatoria mente las frases, conclusion , se genera un resumen extracto con ningún proceso de pln , competencia? no creo pero igual son herramientas que se usan . se podría crear una versión online de radex con el fin de crear un resumen abstracción.

http://es.shvoong.com/summarizer/
http://freesummarizer.com/
http://www.textcompactor.com/
http://www.tools4noobs.com/summarize/
http://smmry.com
http://ies.intellexer.com
http://topicmarks.com -> descontinuado
http://www.wikisummarizer.com/Pages/Default.aspx