Algorithms for learning fuzzy linguistic rule-based systems in high-dimensional problems

  1. Cózar del Olmo, Javier
Dirigida por:
  1. José Antonio Gámez Martín Director/a
  2. Luis de la Ossa Director/a

Universidad de defensa: Universidad de Castilla-La Mancha

Fecha de defensa: 15 de marzo de 2019

Tribunal:
  1. María José del Jesús Díaz Presidenta
  2. Juan Angel Aledo Sánchez Secretario/a
  3. Pietro Ducange Vocal

Tipo: Tesis

Resumen

El tema principal de esta tesis se engloba dentro del campo de estudio de la minería de datos y la inteligencia artificial, enfocado a la generación de modelos basados en reglas difusas. Estos modelos se caracterizan por su interpretabilidad, y por su capacidad de tratar con la incertidumbre asociada a los datos del mundo real. En la literatura existen multitud de algoritmos para aprender sistemas basados en reglas difusas a partir de un conjunto de datos. Una gran parte se centra en el uso de algoritmos genéticos, ya que han demostrado funcionar muy bien para generar estos sistemas de reglas, dando lugar a los denominados sistemas difusos genéticos (Genetic Fuzzy Systems). Normalmente, el proceso de aprendizaje parte de una partición difusa, y se centra en generar un conjunto de reglas factibles o candidatas, seleccionando posteriormente un conjunto de ellas como sistema final. El número de reglas candidatas crece exponencialmente con el tamaño del problema, siendo un impedimento para aplicar estos algoritmos en problemas con muchas variables. Adicionalmente, en problemas de regresión, donde la variable a predecir es un número real, se suelen aplicar un tipo concreto de reglas denominado Takagi-Sugeno-Kang (TSK). El aprendizaje de este tipo de reglas incrementa la complejidad de los algoritmos, ya que deben estimar parámetros adicionales por cada una de las reglas seleccionadas. Esta tesis se centra en el diseño de algoritmos de aprendizaje de sistemas basados en reglas difusas tipo TSK, en problemas de regresión con un gran número de variables. Para lograrlo, partimos de un estudio en el que se valida la ventaja que ofrecen los algoritmos basados en búsqueda local, aprovechando el tipo de interacción local que existe entre las reglas difusas, construyendo eficientemente estos modelos. Con el objetivo de abordar problemas de alta dimensionalidad, se diseñan algoritmos eficientes, basados en Apriori, para la generación del conjunto de reglas candidatas. Esto, en conjunto con la eficiencia de los algoritmos basados en búsqueda local, ha permitido trabajar con problemas de hasta casi 100 variables, considerándose problemas muy complejos en el ámbito de la lógica difusa. Finalmente, con el objetivo de poder construir modelos usando conjuntos de datos mucho más grandes (Big Data), nos centramos en metodologías y arquitecturas paralelas como lo son Map Reduce y Spark. Bajo este stack, se ha diseñado un algoritmo para la generación de árboles de regresión difusos, aplicable en problemas de alta dimensionalidad (miles de variables) y large-scale (millones de instancias).