miércoles, 13 de febrero de 2013

Pruebas Test Stress para Radex vs Google Desktop,File Seek

Se creo una carpeta con 132 archivos pdf con un peso total de 469 Megas .Los temas que contenían los archivos se enumeran de la siguiente manera.

* 34 Pdfs sobre PLN en general
* 86 Pdfs sobre Enterprise Java
* 1 Pdf sobre Análisis semántico latente
* 1 Pdf sobre Textual Entailment
* 1 Pdf Sobre Enertex y Cortex
* 1 Pdf sobre Metrica de Rouge
* 3 Pdfs sobre WordNet
* 2 Pdfs sobre WSD y stop words
* 1 Pdf sobre Levenshtein distance y similitud semantica
* 4 Pdfs sobre LexRank y TexRank

Se instalo Google Desktop
Se instalo File Seek
Se instalo Radex

Se realizaron 53 consultas , pidiéndole a los 3 programas recién instalados que buscaran en la carpeta donde estaban los archivos ,Para google desktop se agrego previamente la carpeta en opciones:

Buscar ubicaciones


UbicaciónEstadoAcción
 
Añadir la unidad o carpeta que deseas incluir en la búsqueda

Para FileSeek y Radex se coloco la carpeta donde debían realizar el proceso de búsqueda.
Para las  búsquedas de contenidos seleccionados aleatoriamente ,los resultados fueron los siguientes
No Busqueda Keyword Radex Google Desktop FileSeek
1 groovybooking X
2 Bijection X
3 Orchestration X
4 @Restrict X
5 Groovy X
6 Classes X
7 Seam X
8 return X X
9 Context search priority X
10 portal environment X
11 LSA X
12 Chumky X
13  POS tagging X
14 corpus X
15 Web semantic X X
16 Reentrenamiento X X
17 Supervisado X X
18 No supervisado X X
19 Metodos basados en conocimiento X
20 Metodos basados en corpus X
21 Summarizer X
22 abstract X
23 Ajax X
24 perl X
25
Summary
X
26 Summary lenght X
27 Mono document X
28 Multidocument X
29 Maxima entropia X
30 Regresion logistica X
31 redundancia X
32 deteccion de redundancia X
33 Edmonds, 2000; Mihalcea, 2003 X
34 el CNA X
35 Ng y Lee, 1996 X
36 EJB 3.0 X X
37 Esquema de Reentrenamiento X
38 LB-SDM X
39 el umbral X
40 Finalmente X X X
41 senseval-2 X X X
42 nuevos experimentos X X X
43 NAACL X
44 Hinrich X
45 garantias X
46 Stateful session beans X X
47 JSF action listener X
48 create=true X
49 15% X
50 Mihalcea X
51 >org.jboss.seam.ejb.SeamInterceptor X
52 Existe un acuerdo mas o menos amplio en
que la falta de un corpus apropiado y sufi-
ciente grande representa un obst´aculo para
continuar progresando en este area. Es dif´ıcil
conseguir un corpus anotado con sentidos para aprendizaje autom´atico (Ng y Lee, 1996;
Edmonds, 2000; Mihalcea, 2003), y los avances y esfuerzos recientes en su adquisicion
autom´atica no hacen sino reforzar su importancia para este desarrollo crucial.
X
53 QARLA X X
54 SweSum X X



Tiempo Estimado realizando las consultas : 34 Minutos
Razones :

Google Desktop

Nota: resultados parciales únicamente (0% completado). indexación única en curso. La indexación se lleva a cabo mientras el equipo se encuentra inactivo. Los mensajes de Outlook se indexan sólo si dicha aplicación se ha iniciado.

Tu consulta "X" no ha obtenido ningún resultado.
Sugerencias:
- Prueba la búsqueda web de Google para obtener resultados de Internet.
- Comprueba que las palabras no contengan faltas de ortografía.
- Intenta utilizar palabras clave más generales.
- Intenta utilizar otras palabras clave.
- Intenta utilizar un número inferior de palabras clave.


FileSeek:
No se puede implementar el método o la operación.


Radex:
Se generaba un PDF por cada resultado de busqueda.



Conclusiones:

Google desktop es una muy buena herramienta , el problema es que necesita indexar todo el computador para obtener resultados satisfactorios , lo que no lo hace practico.

Fileseek:

Realiza busquedas basadas en palabras iguales , no diferencia entre tildes ni UTF-8 , ni mayúsculas ni minúsculas.

Radex:

Resultados satisfactorios.
hay ciertos problemas de repetición de contenido que encuentra y solo devuelve el primer resultado de búsqueda del documento.
Estos problemas se solucionaran en el fin de semana.


Se necesitan hacer pruebas mas objetivas con mas programas y con muchos mas archivos.

Merci.
:)

























No hay comentarios:

Publicar un comentario