Nuevos retos en clasificación asociativabig data y aplicaciones

  1. PADILLO RUZ, FRANCISCO SOLANO
Dirigida por:
  1. Sebastián Ventura Soto Director/a
  2. José María Luna Ariza Codirector

Universidad de defensa: Universidad de Córdoba (ESP)

Fecha de defensa: 20 de julio de 2020

Tribunal:
  1. María José del Jesús Díaz Presidenta
  2. Cristóbal Romero Morales Secretario/a
  3. Julián Luengo Martín Vocal

Tipo: Tesis

Resumen

1. introducción o motivación de la tesis La clasificación asociativa surge como resultado de la unión de dos importantes ámbitos del aprendizaje automático [4]. Por un lado la tarea descriptiva de extracción de reglas de asociación, como mecanismo para obtener información previamente desconocida e interesante de un conjunto de datos, combinado con una tarea predictiva, como es la clasificación [2], que permite en base a un conjunto de variables explicativas y previamente conocidas realizar una predicción sobre una variable de interés o predictiva. Aunque ya existen varias metodologías que resuelven el problema de la clasificación asociativa, muchos de los algoritmos no se encuentran públicamente disponibles. A pesar de que éstos obtuvieron muy buenos resultados, la comunidad aún no ha podido beneficiarse plenamente de ellos al no encontrarse disponible ni su código fuente ni en ejecutable [9]. Adicionalmente, muchos de los algoritmos existentes están diseñados para funcionar de manera secuencial, lo que dificulta su uso sobre grandes cantidades de datos. A pesar de que existen múltiples plataformas de computación distribuida como Apache Hadoop, Apache Spark o Apache Flink [1, 3]. Aún no hay adaptaciones de estos enfoques o nuevos enfoques que puedan ser usados sobre estas plataformas. Por último, los algoritmos existentes no han incorporado los últimos avances provenientes de la extracción de reglas de asociación. En este sentido, una de las fases más importantes de la clasificación asociativa es la extracción de reglas de asociación, a pesar de esto, los algoritmos existentes no han prestado la suficiente atención a esta fase. Además, los algoritmos se han centrado en la optimización de la capacidad de predicción, pero han obviado la interpretabilidad, o la flexibilidad de los clasificadores a pesar de ser estas unas de las principales razones al usar clasificación asociativa. 2.contenido de la investigación En primer lugar, se ha analizado el estado del arte tanto de clasificación asociativa como de la extracción de reglas de asociación. En este sentido, se ha realizado un estudio y análisis exhaustivo de la bibliografía. Como resultado, se ha podido detectar que dentro de la clasificación asociativa se requería de algún mecanismo que facilitara la unificación de comparativas así como que fueran lo más completas posibles. Para tal fin, se ha propuesto una herramienta de software que cuenta con al menos un algoritmo de todas las categorías que componen la taxonomía actual [8]. Esto permitirá dentro de las investigaciones del área, realizar comparaciones más diversas y completas que hasta el momento se consideraba una tarea muy ardua, al no estar disponibles muchos de los algoritmos. También dispone de un conjunto muy diverso de métricas que permite cuantificar la calidad de los resultados desde diferentes perspectivas. Esto permite conseguir clasificadores lo más completos posibles. En segundo lugar, y como resultado del análisis previo, se ha detectado que las propuestas actuales no permiten escalar, ni horizontalmente, ni verticalmente, las metodologías sobre conjuntos de datos relativamente grandes. Dado el creciente interés, tanto del mundo académico como del industrial, de aumentar la capacidad de cómputo a ingentes cantidades de datos, se ha realizado diferentes propuestas sobre Big Data. Para tal fin, se ha comenzado realizando un análisis pormenorizado de los últimos avances para el tratamiento de tal cantidad de datos. En este respecto, se ha prestado especial atención a la computación distribuida ya que ha demostrado ser el único procedimiento que permite el tratamiento de grandes cantidades de datos. Los resultados obtenidos con este tipo de plataformas son bastantes alentadores permitiendo escalar algoritmos existentes para el tratamiento de 200GB de datos, sin ningún tipo de pérdida de calidad de los resultados [7]. En tercer y último lugar, se ha considerado interesante realizar una propuesta que mejore el estado del arte de la clasificación asociativa. Para tal fin, y dado que las reglas de asociación son la base para los clasificadores asociativos, se ha comenzado realizando una nueva propuesta para la extracción de reglas de asociación [5]. En este aspecto, se ha combinado el uso de los últimos avances en computación distribuida, con los algoritmos evolutivos que han demostrado obtener excelentes resultados en el área. En particular, se ha hecho uso de programación genética gramatical por su flexibilidad para codificar las soluciones, así como introducir conocimiento subjetivo en el proceso de búsqueda a la vez que permiten aliviar los requisitos computacionales y de memoria. Este nuevo algoritmo, supone una mejora significativa dela extracción de reglas de asociación ya que ha demostrado obtener mejores resultados que las propuestas existentes sobre diferentes tipos de datos (llegando a analizar 800GB de datos) así como sobre diferentes métricas de interés. Una vez que se ha conseguido este algoritmo que permite extraer excelentes reglas de asociación, se ha adaptado para la obtención de reglas de asociación de clase así como para obtener un clasificador a partir de tales reglas. De nuevo, se ha hecho uso de programación genética gramatical para la obtención del clasificador de forma que se permite al usuario no sólo introducir conocimiento subjetivo en las propia formas de las reglas, sino también en la forma final del clasificador [6]. Esta nueva propuesta también se ha comparado con los algoritmos existentes de clasificación asociativa para garantizar que consigue diferencias significativas respecto a éstos en términos de exactitud, interpretabilidad y eficiencia. Adicionalmente, también se ha comparado con otras propuestas específicas de Big Data donde también ha obtenido excelentes resultados en cuanto a precisión como a eficiencia. 3.conclusión Como resultado de esta tesis se ha conseguido publicar una herramienta software que permite subsanar un problema de falta de unificación dentro de la clasificación asociativa, así como posibilitar que muchos más algoritmos se encuentren públicamente disponibles para futuras comparaciones. Además se han propuesto varios algoritmos para clasificación asociativa haciendo uso de plataformas distribuidas de computo que permite su escalado sobre Big Data sin ningún tipo de perdida ni de exactitud, ni de interpretabilidad de los resultados. Por último, se ha propuesto un nuevo algoritmo para la extracción de reglas de asociación que se ha comparado con 14 algoritmos del estado del arte, usando 12 métricas de calidad y sobre más de 75 conjuntos de datos, demostrando que supone una importante mejora sobre el estado del arte. Haciendo uso de esta misma filosofía para la extracción de reglas de asociación, se ha propuesto un nuevo algoritmo para la clasificación asociativa que se ha comparado con 13 algoritmos del estado del arte, usando diferentes métricas de calidad y sobre más de 40 conjuntos de datos, demostrando que supone una importante mejora sobre el estado del arte. Las escalabilidades de todas las propuestas de esta tesis ha quedado más que demostrada ya que ha permitid7o trabajar con cantidades de datos de varias magnitudes mayores a las que el estado del arte soportaba. 4. bibliografía [1] Dean and S. Ghemawat, “MapReduce: Simplified Data Processing on Large Clusters, ”Communications of the ACM - 50th anniversary issue: 1958 - 2008, vol. 51,no. 1, pp. 107–113, 2008. [2] J. Han and M. Kamber, Data Mining: Concepts and Techniques. Morgan Kaufmann,2011. [3] C. Lam, Hadoop in Action, 1st ed. Greenwich, CT, USA: Manning Publications Co., 2010. [4] B. Liu, W. Hsu, and Y. Ma, “Integrating classification and association rule mining,”in4th International Conference on Knowledge Discovery and Data Mining(KDD98),1998, pp. 80–86. [5] F. Padillo, J. M. Luna, H. F., and S. Ventura, “Mining association rules on big data through mapreduce genetic programming,”Integrated Computer-Aided Engineering, vol. 25, no. 1, pp. 31–48, 2018. [Online]. Available:https://doi.org/10.3233/ICA-170555 [6] F. Padillo, J. M. Luna, and S. Ventura, “A grammar-guided genetic programing algorithm for associative classification in big data,” Cognitive Computation, vol. 11, no. 3, pp. 331–346, 2019. [Online]. Available: https://doi.org/10.1007/s12559-018-9617-2 [7] ——, “Evaluating associative classification algorithms for big data,” BigData Analytics, vol. 4, no. 1, p. 2, 2019. [Online]. Available: https://doi.org/10.1186/s41044-018-0039-7 [8] ——, “Lac: Library for associative classification,” Knowledge-Based Systems, p.105432, 2019 [9] .F. A. Thabtah, “A review of associative classification mining,”Knowledge EngineeringReview, vol. 22, no. 1, pp. 37–65, March 2007.