Tesis año 2015

Dña. Patricia Jiménez Aguirre

19 de Octubre de 2015

Autor: Dña. Patricia Jiménez Aguirre.
Titulo: “Enterprise Information Integration – New Approaches to Web Information Extraction”.
Directores: Dr. D. Rafael Corchuelo Gil (Universidad de Sevilla)
Sinopsis: Information has changed the lives of most people forever thanks to the advent of the Web, which boost people using the Net at an increasing pace. Thus, the Web has become the universally accesible distribution channel for data. However, data itself is not powerful, but rather inferring knowledge from information, which is called Business Intelligence. To do that, we need web information extractors, which are the tools intended to extract data from the Web, and endow them with structure and semantics so that the information they produce can be consumed by people or can feed automated business processes to exploit it in an intelligent way. In this dissertation, we focus on developing web information extractors that learn rules to extract information from semi structured web documents and on how to evaluate different information extraction proposals so as to rank them automatically. We developed two proposals for web information extraction called TANGO and ROLLER; they both are based on an open catalogue of features, which eases evolving them as the Web evolves. We have also devised VENICE, an automated, open, agnostic, and non ad- hoc method to rank information extraction proposals homogeneously, fairly, and stringently.
Our results have proven that we have advanced on the state-of-the-art regarding web information extraction proposals, which may help researchers and practitioners extract information from web pages effectively and efficiently. Also, we have advanced the state-of-the-art regarding how to evaluate and compare information extraction proposals so that researchers and practitioners can make informed decisions on which proposal is the most suitable for a particular problem.
Teseo: https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1182735
Repositorio USE: http://www.doctorado.us.es/tesis-doctoral/repositorio-tesis/tesis-2015/details/2/4906
LinkedIn: http://www.tdg-seville.info/PatriciaJimenez/Home

D. Juan Antonio Nepomuceno Chamorro

21 de Julio de 2015

Autor: D. Juan Antonio Nepomuceno Chamorro.
Titulo: “Biclustering sobre datos de expresión génica basado en búsqueda dispersa”.
Directores: Dr. Dña Alicia Troncoso Lora (Universidad Pablo de Olavide) y Dr. D. Jesús Aguilar Ruiz (Universidad Pablo de Olavide).
Sinopsis: Los datos de expresión génica, y su particular naturaleza e importancia, motivan no sólo el desarrollo de nuevas técnicas sino la formulación de nuevos problemas como el problema del biclustering. El biclustering es una técnica de aprendizaje no supervisado que agrupa tanto genes como condiciones. Este doble agrupamiento lo diferencia del clustering tradicional sobre este tipo de datos ya que éste sólo agrupa o bien genes o condiciones.
La presente tesis presenta un nuevo algoritmo de biclustering que permite el estudio de distintos criterios de búsqueda. Dicho algoritmo utilize esquema de búsqueda dispersa, o scatter search, que independiza el mecanismo de búsqueda del criterio empleado.

Se han estudiado tres criterios de búsqueda diferentes que motivan las tres principales aportaciones de la tesis. En primer lugar se estudia la correlación lineal entre los genes, que se integra como parte de la función objetivo empleada por el algoritmo de biclustering. La correlación lineal permite encontrar biclusters con patrones de desplazamiento y escalado, lo que mejora propuestas anteriores. En segundo lugar, y motivado por el significado biológico de los patrones de activación-inhibición entre genes, se modifica la correlación lineal de manera que se contemplen estos patrones. Por último, se ha tenido en cuenta la información disponible sobre genes en repositorios públicos, como la ontología de genes GO, y se incorpora dicha información como parte del criterio de búsqueda. Se añade un término extra que refleja, por cada bicluster que se evalúe, la calidad de ese grupo de genes según su información almacenada en GO. Se estudian dos posibilidades para dicho término de integración de información biológica, se comparan entre sí y se comprueba que los resultados son mejores cuando se usa información biológica en el algoritmo de biclustering.
Teseo: https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1161591
Repositorio USE: http://www.doctorado.us.es/tesis-doctoral/repositorio-tesis/tesis-2015/details/2/4930
LinkedIn: https://www.linkedin.com/in/juan-antonio-nepomuceno-chamorro-74716b19

D. José Ángel Galindo Duarte

4 de Marzo de 2015

Autor: D. José Ángel Galindo Duarte.
Titulo: “Evolution, testing and configuration of variability intensive Systems”.
Directores: Dr. D. David Benavides (Universidad de Sevilla) y Dr. D. Benoit Baudry (INRIA, Francia)
Sinopsis: In this dissertation we looked for different tendencies in the automated analysis field and found several research opportunities. Driven by real-world scenarios such as smart phone or video–surveillance domains, we contributed applying, adapting or extending automated analysis operations in variability intensive systems evolution, testing and configuration.
Teseo: https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1124517
Repositorio USE: http://www.doctorado.us.es/tesis-doctoral/repositorio-tesis/tesis-2015/details/2/4724
LinkedIn: https://www.linkedin.com/in/jos%C3%A9-%C3%A1ngel-galindo-duarte-131b8322

D. Jesús García Galán

10 de Junio de 2015

Autor: D. Jesús García Galán.
Titulo: “Automating the support of highly-reconfigurable services”.
Directores: Dr. D. Antonio Ruiz Cortés (Universidad de Sevilla) y Dr. D. Pablo Trinidad Martín-Arroyo (Universidad de Sevilla)
Sinopsis: La oferta y demanda de servicios software se ha generalizado con el auge del cloud computing, permitiendo que prácticamente cualquier funcionalidad pueda ser ofrecida como servicio bajo demanda y de una forma elástica. Con el objetivo de abarcar un mercado más amplio, y de satisfacer a un mayor número de potenciales clientes, los proveedores de ofrecen cada vez servicios más configurables. Por ejemplo, proveedores de servicios de infraestructura tales como Amazon o Rackspace ofrecen decenas de instancias de computación distintas, que pueden correr bajo diferentes sistemas operativos en diversas localizaciones geográficas, y que pueden ser contratadas de múltiples formas. El proceso de configuración de estos servicios es tedioso y propenso a errores. En primer lugar, los usuarios tienen que estudiar la descripción del servicio, habitualmente en lenguaje natural, para comprender las distintas características y opciones de configuración ofrecidas. Sin embargo, dichas opciones y características a menudo no están descritas adecuadamente, existiendo además interrelaciones y restricciones entre ellas. Tras esto, los usuarios tienen que identificar sus necesidades sobre el servicio, para finalmente evaluar las diferentes configuraciones y determinar la mas satisfactoria. Mientras que algunos de estos servicios, como Dropbox, presentan pocas alternativas de configuración, otros, como Amazon EC2, presentan miles de ellas. Además, el soporte a la toma de decisiones para estos servicios es escaso y no ofrece la ayuda esperada. Mientras las herramientas ofrecidas por los proveedores se centran en el c´alculo del coste e ignoran la búsqueda de la mejor configuración, las herramientas ofrecidas por empresas especializadas a menudo devuelven falsos positivos.
En esta tesis, partimos de la conjetura de que las técnicas de modelado y análisis de la variabilidad pueden ayudar a asistir el proceso de configuración de estos servicios altamente configurables. Estas técnicas ya han sido empleadas previamente con éxito para configurar sistemas software. Sin embargo, dichas técnicas tienen limitaciones en ciertos aspectos. Por un lado, las técnicas de modelado no son capaces de describir de forma precisa ni el servicio ni las preferencias de los usuarios sobre él. Por otro lado, las técnicas de análisis presentan algunas carencias a la hora de buscar la mejor configuración, especialmente en escenarios donde existen múltiples usuarios.

En este trabajo presentamos dos contribuciones principales. En primer lugar, proponemos un nuevo tipo de modelo, llamado Configurable Service Model, que está basado en los modelos de variabilidad actuales, con el objetivo de paliar sus carencias a la hora de asistir el proceso de configuración. Para ello, dotamos a estos modelos de mecanismos para describir de una forma rigurosa y sucinta servicios altamente configurables. Adicionalmente, incorporamos mecanismos para que los usuarios puedan definir sus necesidades en términos de requisitos y preferencias. En segundo lugar, presentamos un soporte automático para evaluar las distintas alternativas de configuración de un servicio. Para ellos, describimos un catalogo de operaciones inspirado en las técnicas de análisis automatizado de la variabilidad, que permite al proveedor detectar anomalías en su oferta, y al usuario identificar cuál es la configuración m´as adecuada a sus necesidades. En este punto, cobran especial relevancia los procesos de configuración donde intervienen múltiples usuarios, puesto que a ´un son un desaf´ıo a resolver por las técnicas actuales. En este sentido, proponemos interpretar este tipo de configuración mediante la teoría de juegos, dando lugar a una nueva operación para identificar configuraciones que satisfagan las necesidades de múltiples usuarios.

Los resultados de nuestra propuesta son esperanzadores. Por un lado, nuestra propuesta de modelado cuenta con la expresividad y sucintez suficiente como para describir espacios de configuración reales, como el de Amazon EC2. Por otro lado, demostramos que las operaciones de an´alisis propuestas son capaces encontrar configuraciones satisfactorias con un tiempo de ejecución insignificante. Incluso en determinados casos, las configuraciones resultantes mejoran los resultados ofrecidos por aplicaciones comerciales.
Teseo: https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1159359
Repositorio USE: http://www.doctorado.us.es/tesis-doctoral/repositorio-tesis/tesis-2015/details/2/4817
LinkedIn: https://www.linkedin.com/in/jesusgarciagalan

D. David Gutiérrez Avilés

25 de Septiembre de 2015

Autor: D. David Gutiérrez Avilés.
Titulo: “TrLab: Una metodología para la extracción y evaluación de patrones de comportamiento de grandes volúmenes de datos biológicos dependientes del tiempo”.
Directores: Dra. Dña. Cristina Rubio Escudero (Universidad de Sevilla).
Sinopsis:La tecnología de microarray ha revolucionado la investigación biotecnológica gracias a la posibilidad de monitorizar los niveles de concentración de ARN. El análisis de dichos datos representa un reto computacional debido a sus características. Las técnicas de Clustering han sido ampliamente aplicadas para crear grupos de genes que exhiben comportamientos similares. El Biclustering emerge como una valiosa herramienta para el análisis de microarrays ya que relaja la restricción de agrupamiento permitiendo que los genes sean evaluados sólo bajo un subconjunto de condiciones experimentales. Sin embargo, ante la consideración de una tercera dimensión, el tiempo, el Triclustering se presenta como la herramienta apropiada para el análisis de experimentos longitudinales en los que los genes son evaluados bajo un cierto subconjunto de condiciones en un subconjunto de puntos temporales. Estos triclusters proporcionan información oculta en forma de patrón de comportamiento para experimentos temporales con microarrays.
En esta investigación se presenta TrLab, una metodología para la extracción de patrones de comportamiento de grandes volúmenes de datos biológicos dependientes del tiempo. Esta metodología incluye el algoritmo TriGen, un algoritmo genético para la búsqueda de triclusters, teniendo en cuenta de forma simultánea, los genes, condiciones experimentales y puntos temporales que lo componen, además de tres medidas de evaluación que conforman el núcleo de dicho algoritmo así como una medida de calidad para los triclusters encontrados.

Todas estas aportaciones estarán integradas en una aplicación con interfaz gráfica que permita su fácil utilización por parte de expertos en el campo de la biología.

Las tres medidas de evaluación desarrolladas son: MSR3D basada en la adaptación a las tres dimensiones del Residuo Cuadrático Medio, LSL basada en el cálculo de la recta de mínimos cuadrados que mejor ajusta la representación gráfica del tricluster y MSL basada en el cálculo de los ángulos que forman el patrón de comportamiento del tricluster. La medida de calidad se denomina TRIQ y aglutina todos los aspectos que determinan el valor de un tricluster: calidad de correlación, gráfica y biológica.
Teseo: https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1169625
Repositorio USE: http://www.doctorado.us.es/tesis-doctoral/repositorio-tesis/tesis-2015/details/2/4903
LinkedIn: https://www.linkedin.com/in/davidgutierrezaviles

D. Juan Manuel Cotelo Moya

3 de Septiembre de 2015

Autor: D. Juan Manuel Cotelo Moya.
Titulo: “Análisis de Contenidos Generados por Usuarios mediante la Integración de Información Estructurada y No Estructurada”.
Directores: Dr. D. José A. Troyano (Universidad de Sevilla) y Dr. D. Fermín Cruz (universidad de Sevilla).
Sinopsis: Los servicios de redes sociales han pasado a ser una parte fundamental del entramado social de los últimos años. Estas herramientas permiten a las personas crear, intercambiar o compartir información, ideas, imágenes y cualquier tipo de medio en comunidades virtuales y redes. El impacto de estos servicios de redes sociales sobre la sociedad ha sido tal, que han introducido cambios sustanciales sobre la comunicación a todos los niveles: individual, comunitaria, organizacional y empresarial. Todo este contenido generado por el usuario tiene un carácter viral del que carecen el resto de medios de comunicación, sirviendo como fuente de conocimiento para nuevas oportunidades de negocio. Es más, la simbiosis que existe entre los dispositivos móviles y estas redes sociales ha provocado que los contenidos generados por los usuarios incorporen nuevos factores como la localización del usuario y el momento exacto de creación y edición del mensaje o contenido en cuestión. Esto abre nuevos mercados potenciales que relacionan a las personas, las redes sociales, el mercado móvil y los eventos en tiempo real.
Al abordar este nuevo tipo de contenido, hay que comprender que las redes sociales nos otorgan la oportunidad de combinar dos aspectos fundamentales que los mensajes contienen: información estructurada con la no estructurada en forma, fundamentalmente, de textos cortos. La información estructurada nos proporciona conocimiento adicional que permite analizar el mensaje y al usuario dentro de un contexto específico de carácter social, temporal y/o espacial. Combinar significativamente ambos tipos de información puede resultar fundamental para un tratamiento efectivo de los mensajes.

En esta memoria de tesis, se explora la hipótesis consistente en que, al integrar el conocimiento proveniente de dos tipos de información de distinta naturaleza (estructurada y no estructurada) existentes en los mensajes de las redes sociales, se pueden resolver, de forma más efectiva y significativa, ciertas tareas relacionadas con el procesamiento de este tipo de contenidos. Para validar dicha hipótesis, se proponen una serie de tareas a resolver, siempre bajo el paradigma de la integración de ambos tipos de información: la recuperación temática de mensajes en redes de microblogging, la normalización de mensajes cortos provenientes de redes sociales, clasificación de opinión sobre los mensajes de éstas redes y la caracterización de grupos de usuarios dentro de un contexto específico.

Cada tarea es tratada de forma individual, proporcionando una formalización para la misma, caracterizando los fenómenos más relevantes, proponiendo uno o varios métodos para abordarla, realizando una evaluación sobre ellos y explorando los resultados de forma consecuente. Las principales aportaciones se resumen en las siguientes propuestas: un método dinámico y adaptativo para generar consultas que son consumibles por un sistema de microblogging como Twitter, un sistema de normalización léxica altamente modular, un esquema de integración para combinar modelos de características provenientes de información estructurada y no estructurada, y una aproximación indicada para la caracterización de grupos de usuarios de las redes dentro de un contexto específico.
Teseo: https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1169748
Repositorio USE: http://www.doctorado.us.es/tesis-doctoral/repositorio-tesis/tesis-2015/details/2/4885
LinkedIn: https://www.linkedin.com/in/juan-manuel-cotelo-moya-1724a3103