Sistemas de clasificación basados en reglas difusas para problemas no balanceados: aproximaciones y uso de nuevas estrategias para resolver problemas intrínsecos a los datos no balanceados

López Morales, Victoria

Sistemas de clasificación basados en reglas difusas para problemas no balanceadosaproximaciones y uso de nuevas estrategias para resolver problemas intrínsecos a los datos no balanceados

López Morales, Victoria

Dirigida por:

Francisco Herrera Triguero Director/a
Alberto Fernández Hilario Codirector

Universidad de defensa: Universidad de Granada

Fecha de defensa: 25 de abril de 2014

Tribunal:

Antonio González Muñoz Presidente/a
Rafael Alcalá Fernández Secretario
Salvador García López Vocal
Edurne Barrenechea Tartas Vocal
Pietro Ducange Vocal

Tipo: Tesis

Teseo: 360041 DIALNET DIGIBUG editor

Resumen

The aim of this thesis is to perform an in-depth study of classification with imbalanced datasets focusing on the performance of available methods and to analyze the issues that degrade the performance in this scenario, with an especial focus to the usefulness of fuzzy rule-based classification systems to address this type of problems. The objectives carried out throughout this thesis were the following ones: 1. To develop a study of the state-of-the-art for classification with imbalanced datasets establishing, through an empirical analysis, the strengths and weaknesses of the available techniques. These include preprocessing techniques, cost-sensitive classifiers and ensemble based approaches. 2. In depth analysis of the intrinsic data characteristics which, in conjunction with the class imbalance, cause a performance degradation for the standard models in data mining. 3. To determine the degree of significance that each of the previously observed problems suppose in the correct identification of the examples when the class distribution is uneven. 4. Development of new algorithms using fuzzy rule based classification systems, which include special operations to address those areas with class overlapping, presence of small disjuncts, and borderline samples. To reach a better performance with respect to the state-of-the-art in these specific scenarios within imbalance classification. 5. To examine the impact of the different data distribution in the training and test sets (dataset shift) as an intrinsic data characteristic for classification with imbalanced datasets. 6. To discover the technical limitations for imbalanced classification that exists in Big Data. 7. To propose methodologies that allow to address the big data problem with imbalanced datasets, following an structure based on those most novel techniques to solve the problem, and the also be able to face those challenges posed by big data, as the management of data with a high volume, providing a reasonable runtimes for users, and that allow to manage the uncertainty inherent to the data gathered in those situations. In order to complete these objectives, several studies during the completion of the doctoral thesis have been developed in a highly satisfactory way. First, the most appropriate techniques to solve this problem from a generic point have been determined. Furthermore, different scenarios have been established to be taken into account for the correct resolution in real applications. As for the developed techniques, the use of fuzzy rule based classification systems have been very useful to handle those problems with high overlap creating smoother borders by means of linguistic labels with different granularity levels in the antecedents of the rules. On the other hand, the study of dataset shift is of great importance to the extent that the minority instances could lead to models that are not able to fully represent the problem; therefore, it is necessary to use techniques that are able to limit these differences in the distribution between the training and test sets. Finally, the distributed model developed for imbalanced big data problems using fuzzy rule-based classification systems, has been able to address datasets with more than 5 million examples in an acceptable time with little degradation of the precision. ------------------------------------------------------------------------------------------------------------------------------------------------------- El contenido de esta tesis trata de realizar un estudio profundo acerca de los problemas de clasificación con conjuntos de datos no balanceados prestando una gran atención a las propuestas previas en el tema y analizando las características internas que presentan este tipo de problemas y que pueden provocar una pérdida de rendimiento. Los objetivos llevados a cabo fueron: 1. Estudio del estado del arte de la clasificación con datos no balanceados estableciendo, mediante un análisis empírico, las fortalezas y debilidades de las técnicas actuales. Destacamos las técnicas de preprocesamiento, aproximaciones sensibles al coste y clasificadores basados en multiclasificadores. 2. Análisis exhaustivo de las características internas de los datos que, en conjunción con el desequilibrio de clases, causan una degradación del rendimiento de los modelos de minería de datos estándar. 3. Determinar el impacto que cada uno de los problemas observados anteriormente supone en la correcta identificación de los ejemplos cuando la distribución de clases es desigual. 4. Desarrollo de nuevos algoritmos mediante sistemas de clasificación basados en reglas difusas poniendo especial énfasis en zonas de solapamiento de clases, presencia de pequeñas áreas de datos e instancias fronteras. Alcanzar un mejor rendimiento frente al estado del arte en estos escenarios particulares dentro de la clasificación con datos no balanceados. 5. Examinar el impacto de la diferente distribución de datos en los conjuntos de entrenamiento y validación (dataset shift) como característica intrínseca a los datos en clasificación con datos no balanceados. 6. Discernir las limitaciones de técnicas de clasificación no balanceada existentes en big data con datos no balanceados. 7. Proponer metodologías que permitan abordar el problema de big data con datos no balanceados, siguiendo una estructura basada en las técnicas más novedosas para resolver el problema y que a su vez sea capaz de enfrentarse a los retos que se plantean en big data como el manejo de datos de un volumen elevado, proporcionando tiempos de respuesta razonables y que permitan manejar la incertidumbre inherente a los datos recopilados en estas situaciones. Para llevar a cabo estos objetivos se han desarrollado diversos estudios durante la realización de la tesis doctoral que han culminado de manera altamente satisfactoria. En primer lugar, se han determinado las técnicas más apropiadas para resolver este problema desde un punto de vista genérico. Además, se han establecido diferentes escenarios que deben tomarse en consideración para la correcta resolución en aplicaciones reales. En cuanto a las técnicas desarrolladas, el uso de los sistemas de clasificación basados en reglas difusas ha resultado de gran utilidad para manejar aquellos problemas con un alto solapamiento por medio de la creación de fronteras más suaves gracias a varios niveles de etiquetas lingüísticas en los antecedentes de las reglas. Por otro lado, el estudio del llamado dataset shift resulta de una gran importancia ya que instancias minoritarias mal distribuidas entre el entrenamiento y test pueden acarrear la generación de modelos que no representen correctamente el problema, por lo que, es necesario utilizar técnicas que puedan limitar estas diferencias entre la distribución de ejemplos en los conjuntos de entrenamiento y test. Por último, el modelo distribuido desarrollado basado en el uso de sistemas de clasificación basados en reglas difusas para afrontar problemas de datos no balanceados de big data ha sido capaz de abordar problemas con más de 5 millones de ejemplos en un tiempo aceptable sin una degradación notable de la precisión.