Nuevos métodos de edición de conjuntos de entrenamiento no balanceados usando la teoría de los conjuntos aproximados
- Ramentol Martínez, Enislay
- Francisco Herrera Triguero Director/a
- Rafael Bello Pérez Codirector/a
Universitat de defensa: Universidad de Granada
Fecha de defensa: 25 de de juny de 2014
- José Luis Verdegay Galdeano President/a
- Raúl Pérez Rodríguez Secretari/ària
- Alberto Fernández Hilario Vocal
- María José del Jesús Díaz Vocal
- César Hervás Martínez Vocal
Tipus: Tesi
Resum
En esta tesis se presenta un conjunto de algoritmos para tratar datos no balanceados. Hemos utilizado la Teoría de los Conjuntos Aproximados (TCA), tanto la clásica como su enfoque difuso (TCAD), para evaluar la pertenencia de los objetos a la región positiva de su clase, y bajo este criterio decantarlos como buenos representas de ésta. Nuestras propuestas están enfocadas en 2 niveles: al nivel de los datos, donde proponemos un grupo de algoritmos híbridos de sobremuestreo y al nivel de los algoritmos, donde proponemos un algoritmo de clasificación para conjuntos no balanceados. Los objetivos desarrollados fueron: ¿ Proponer un nuevo algoritmo híbrido de preprocesamiento para conjuntos de alto desbalance que utilice SMOTE para generar nuevos ejemplos y evalúe la calidad de dichos ejemplos a través de la TCA. El objetivo de esta propuesta es que cada instancia sintética que sea generada con SMOTE pertenezca a la aproximación inferior de la clase, de esta forma se garantiza que no se generen ejemplos sintéticos en zonas, que lejos de mejorar, empeoren el comportamiento de los clasificadores. Demostrar la viabilidad de la propuesta a través de análisis comparativo con varios algoritmos del estado del arte. ¿ Proponer un nuevo algoritmo híbrido de preprocesamiento para conjuntos de alto desbalance que utilice SMOTE para generar nuevos ejemplos y evalúe la pertenencia de los ejemplos sintéticos y los mayoritarios originales a la región positiva de su clase, utilizando el enfoque difuso de la TCA. El objetivo de esta propuesta es que en conjunto final solo queden aquellas instancias sintéticas y mayoritarias originales cuyo grado de pertenencia a la región positiva de su clase esté por encima de un umbral dado, considerando el concepto de similaridad difusa para evaluar la calidad de los ejemplos de la clase mayoritaria y los sintéticos. Demostrar la viabilidad de la propuesta a través de análisis comparativo con varios algoritmos del estado del arte. ¿ Proponer un nuevo algoritmo híbrido de preprocesamiento para conjuntos de alto desbalance que utilice SMOTE y el enfoque difuso de la TCA con doble umbral y aplicarlo al problema del diagnóstico de la necesidad de mantenimiento de los interruptores de alta potencia. El objetivo es diseñar un algoritmo que se ajuste a las necesidades reales de una aplicación en la ingeniería, por tanto se deben crear ejemplos sintéticos de alta pertenencia a la clase minoritaria (usar un umbral alto) y eliminar ejemplos originales mayoritarios que tengan muy baja pertenencia a la región positiva de su clase (usar un umbral muy bajo). ¿ Proponer un nuevo algoritmo de clasificación para conjuntos de datos no balanceados usando la TCAD y la agregación con el operador OWA utilizando vectores de pesos para ponderar los ejemplos. El objetivo de esta propuesta es lograr un algoritmo que durante el aprendizaje construya vectores de pesos atendiendo a la representatividad de cada clase y usar ese vector para determinar el grado de pertenencia a la región positiva de cada clase de los ejemplos a clasificar. Demostrar la viabilidad de la propuesta a través de análisis comparativo con varios algoritmos del estado del arte. Para el cumplimiento de los objetivos trazados en la tesis, se desarrolló un estudio previo de los mejores algoritmos existentes en el estado del arte para el tratamiento de datos no balanceados. Además se estudió la TCA y su enfoque difuso, como potentes herramientas matemáticas para discernir los ejemplos que son mejores representantes de sus clases, a través del concepto de aproximación inferior. Partiendo de este estudio se diseñaron algoritmos al nivel de los datos los cuales primeramente igualaban la cantidad de ejemplos en cada clase usando SMOTE y luego evaluaban la pertenencia de los objetos a su clase usando la TCA y la TCAD. Uno de los algoritmos propuestos se utilizó en la solución de un problema real: el diagnóstico de la necesidad de mantenimiento de los interruptores de potencia. Los algoritmos creados han demostrado un comportamiento robusto frente a datos altamente desbalanceados (IR>9), el uso de la TCA y la TCAD ha permitido que se inserten el conjunto final solo aquellos ejemplos que pertenecen con un alto grado a su clase, evitando la presencia de ejemplos en la frontera. Partiendo del concepto de grado de pertenencia a la región positiva, dado por la TCAD, y la agregación con el operador OWA utilizando vectores de pesos para ponderar los ejemplos, se propuso un nuevo algoritmo de clasificación para conjuntos no balanceados partiendo del algoritmo Fuzzy Rough Nearest Neighbor (FRNN). Se diseñan 6 estrategias diferentes para la creación de los vectores de pesos. Este método logra excelentes resultados sobre conjuntos con diferentes índices de desbalance (desde 1.8 hasta 129) logrando resultados significativamente superiores a reconocidos algoritmos diseñados para la clasificación no balanceada y a varios algoritmos de preprocesamiento combinados con potentes clasificadores como kNN, C4.5 y SVM.