martes, 19 de marzo de 2013

lunes, 11 de marzo de 2013

conceptos segun magister javeriana


Preparaci on
Lematizaci on: Seg un [Hotho et al., 2005] es un m etodo en el cual los verbos se
transforman a su forma ra z y los nombres a su forma singular.
Segmentaci on: La Segmentaci on o tokenization que es el proceso de dividir un

ujo de texto en palabras, frases, s mbolos o cualquier otro elemento signi cativo,
a este elemento se le llama token.
Eliminaci on Palabras irrelevantes: Seg un [Hotho et al., 2005], en este proceso
se eliminan las palabras con poca informaci on como art culos, preposiciones etc.
Aun m as, es la eliminaci on de palabras que ocurren frecuentemente por lo cual se
puede a rmar que contiene informaci on irrelevante
Etiquetado: El etiquetado presenta el etiquetado manual donde un experto iden-
ti ca los t erminos claves o se etiqueta usando UMLS [US-NLM, 2011] o Sistema
Uni cado de Lenguaje M edico, que es un conjunto de archivos y software que
re une m ultiples t erminos y vocabularios asociados a areas de la salud y biom edica,
estandariz andolas para permitir la interoperabilidad entre sistemas inform aticos.
Clasi caci on/Detecci on
Expresiones Regulares: Una expresi on regular proporciona medios concisos y

exibles para que \coincidan" (especi car y reconocer) las cadenas de texto, como
los caracteres especiales, palabras o patrones de caracteres
Propuesto: Esta rama incluye los proyectos que proponen sus propios algoritmos.
Modelos Ocultos de Markov: Como algoritmo innovador se expone los Modelos
ocultos de Markov el cual es un modelo estad stico para problemas lineales como
secuencias o series de tiempo y ha sido ampliamente usado en aplicaciones de
reconocimiento de habla.
Redes Bayesianas: Basado en [Antal et al., 2001, Antal et al., 2000], las redes
Bayesianas son b asicamente un grafo dirigido ac clico que consta de un conjunto
de nodos, uno por cada variable aleatoria. Un conjunto de arcos dirigidos que
conectan los nodos; si hay un arco de X a Y se dice que X es un padre de Y.
Un arco entre X y Y signi ca una in
uencia directa de X sobre Y, y es tarea
de un experto de nir estas relaciones de dependencia. Cada nodo Xi contiene la
distribuci on probabilidad condicional,.
Arboles de decisi on: Los arboles de decisi on, adecuados para la clasi caci on,
seg un [Hotho et al., 2005], son un conjunto de condiciones organizadas en una es-
tructura jer arquica, de tal manera que la decisi on nal a tomar se pueda determinar
siguiendo las condiciones que se cumplen desde la ra z del arbol hasta alguna de
sus hojas. Cada nodo interior contiene una pregunta sobre un atributo concreto
(con un hijo por cada posible respuesta) y cada nodo hoja se re ere a una decisi on
(clasi caci on).
7Otra rama descrita son las herramientas, las cuales describen la herramienta que soporta
el an alisis de historias cl nicas electr onicas:
GATE: General Architecture for Text Engineering [Cunningham et al., 2011] es una
infraestructura para el desarrollo y despliegue de componentes de software que procesan
lenguaje humano. Esta herramienta de mineria de texto esta disponible como software
libre.
Link Grammar Parser: Link Grammar Parser, es un analizador sint actico para el
idioma Ingl es, seg un [Sleator and Temperley, 1991, Sleator and Temperley, 1993] se ba-
sa en la gram atica de enlace, una teor a original de la sintaxis del Ingl es. Dada una
sentencia, el sistema le asigna una estructura sint actica, que consiste en un conjunto
de enlaces etiquetados conectando pares de palabras. El analizador tambi en produce
una representaci on constituyente"de una frase (que muestra las frases nominales, frases
verbales, etc.).
EMERSE: The Electronic Medical Record Search Engine [Hanauer, 2006], es un poten-
te motor de b usqueda para documentos con texto libre en historias cl nicas electr onicas.
Este ofrece m ultiples opciones para la creaci on de b usquedas complejas.
Propia: Constituye una herramienta desarrollada para un objetivo en particular dentro
del an alisis de historias cl nicas, estos contemplan implementaciones con alguna de las
herramientas mencionadas o implementaci on de algoritmos o procesos de miner a de
texto