Metodologías de datos de calidad (Smart Data) para Deep Learning: el problema del ruido de clase y aplicaciones en corales y COVID-19

  1. Gómez Ríos, Anabel
Dirigida por:
  1. Francisco Herrera Triguero Codirector/a
  2. Julián Luengo Martín Codirector/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 19 de julio de 2022

Tribunal:
  1. Salvador García Lopez Presidente/a
  2. Rocío C. Romero Zaliz Secretario/a
  3. María José del Jesús Díaz Vocal
  4. Amelia Zafra Gómez Vocal
  5. David Camacho Fernández Vocal

Tipo: Tesis

Resumen

Actualmente, todos los procesos que son ejecutados en gobiernos, empresas y centros de investigacións están generando datos que serán procesados con el objetivo de obtener información de valor. El proceso de extraer esta información relevante en los datos es conocido como Knowledge Discovery in Databases. Este proceso contiene dos pasos importantes, conocidos como limpieza y preprocesado de datos, y data mining. El primero limpia los datos originales en términos de inconsistencias, posibles valores perdidos, ruido (que son pequeños errores en los datos), etc. El segundo usa este conjunto ya limpio generado en el primer paso y usa algoritmos de aprendizaje automático para extraer patrones e información de estos datos. El Deep Learning, una rama del aprendizaje automático, está siendo ampliamente usado ahora debido al buen rendimiento que ha mostrado, especialmente cuando los datos de entrada están compuestos por imágenes, superando los resultados obtenidos por otros algoritmos de aprendizaje automático. Sin embargo, los algoritmos de Deep Learning son conocidos por necesitar grandes cantidades de datos para obtener buenos resultados, lo que supone un inconveniente para su aplicación en escenarios que carecen de un gran volumen de datos. En esta tesis, proponemos el uso de distintas técnicas de preprocesamiento y optimización que nos permitan el uso de algoritmos de Deep Learning y, en particular, redes neuronales convolucionales, cuando los conjuntos de datos de los que disponemos son pequeños (con un tamaño por debajo de las 1500 imágenes) debido a que es costoso y difícil obtener más datos. De esta forma, transformamos estos conjuntos pequeños en lo que se conoce como smart data, para que puedan ser usados para entrenar redes neuronales convolucionales.