Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas

  1. González López, Manuel
Dirigida por:
  1. Salvador García López Director
  2. José Ramón Cano de Amo Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 16 de abril de 2021

Tribunal:
  1. Francisco Herrera Triguero Presidente/a
  2. Alberto Fernández Hilario Secretario
  3. Francisco Charte Ojeda Vocal
  4. María José del Jesús Díaz Vocal
  5. Amelia Zafra Gómez Vocal

Tipo: Tesis

Resumen

La memoria se estructura de la siguiente manera: el Capítulo 2 presenta los conceptos teóricos y antecedentes del proceso de extracción de conocimiento y minería de datos, así como los estudios más relevantes realizados sobre la distribución de etiquetas, introduce conceptos básicos sobre la etapa de pre-procesamiento de datos, las estrategias de descomposición y presenta las métricas y los conjuntos de datos utilizados en el apartado experimental. Al fi nal de la misma sección presentaremos un resumen de las estrategias de pre-procesamiento prometedoras para LDL. Seguidamente, en el Capítulo 3 exponemos las publicaciones realizadas. Cada una de ella se corresponde con uno de los objetivos previamente planteados: La primera propuesta es un método de generación sintética de muestras adaptado a las restricciones que supone un modelo LDL. Bajo de la hipótesis de una falta de información en los conjuntos de datos de LDL existentes, necesitamos mejorar los datos originales para aumentar la eficacia de los algoritmos de aprendizaje. Una de las propuestas mas conocidas y utilizadas para tratar este problema es la técnica de muestreo de datos [6] en la que las instancias de entrenamiento se modi can de manera que se produzca una distribución de clases más efi ciente que permita a los clasifi cadores mejorar su rendimiento. Este enfoque aún no ha sido estudiado para el paradigma LDL y puesto que podría resultar prometedor, hemos desarrollado un método de oversampling [87] que crea un superconjunto de datos partiendo del conjunto de datos original, creando nuevas instancias a partir de las existentes. La técnica ideada se basa en uno de los enfoques más utilizados en este área llamado: Synthetic Minority Oversampling Technique (SMOTE) [21]. La publicación asociada a esta propuesta queda recogida en el Capítulo 4. La segunda propuesta, enfocada en mejorar el rendimiento de los métodos LDL, se centra en el algoritmo AA-kNN [49], adaptación a LDL del conocido k-NN y que ha demostrado ser un algoritmo muy competitivo en estudios experimentales previos, logrando resultados aceptables y permitiendo un modelo explicable [7]. Sin embargo, como cualquier otro algoritmo basado en instancias, adolece de varios inconvenientes: necesita grandes requisitos de memoria para almacenar el conjunto de entrenamiento, no es e ficiente en la predicción debido a los múltiples cálculos de similitudes entre las muestras de test y entrenamiento y presenta una baja tolerancia al ruido porque utiliza todos los datos como relevantes. La propuesta aplica dos técnicas de reducción de datos como son la selección de prototipos [47], y la selección de características [101]. El resultado es un método novedoso para abordar simultáneamente la selección de prototipos y la selección de características especifica cas a cada etiqueta de salida, específicamente diseñado para el algoritmo AA-kNN. La publicación asociada a esta propuesta queda recogida en el Capítulo 5. La ultima propuesta consiste en una transformación de datos orientada a reducir la complejidad del problema. La técnica ideada es una estrategia de descomposición adaptada para tratar problemas LDL y que se inspira en una de las estrategias más conocidas en este área: el esquema \One-Vs-One" (OVO) [64], donde el problema original se divide en problemas binarios que distinguen los diferentes pares de clases, seguidamente, cada división se entrena con un clasificador base. Este método suele requerir un paso adicional para fusionar las salidas de los clasi ficadores simples con el n de producir el resultado nal. Para el caso de LDL, el método resultante combina una estrategia de descomposición capaz de manejar la distribución de etiquetas de salida en lugar de valores discretos de clase así como un mecanismo capaz de proporcionar una salida de acuerdo con las restricciones de LDL. Por otro lado, mientras que OVO utiliza un clasi ficador binario como clasi ficador base, en nuestra propuesta tenemos que incluir un clasi ficador LDL que pueda tratar con los valores reales de las etiquetas de salida. La publicación asociada a esta propuesta queda recogida en el Capítulo 6. Analizaremos los resultados de todas estas propuestas en el Capítulo 7. Para 7 terminar, el Capítulo 8 recopila las conclusiones alcanzadas e introduce las futuras en líneas de investigación.