Algoritmos de inteligencia computacional para abordar problemas de detección de anomalías en entornos big data

  1. Carrasco Castillo, Jacinto
Dirigida por:
  1. Francisco Herrera Triguero Codirector/a
  2. Julián Luengo Martín Codirector/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 10 de marzo de 2023

Tribunal:
  1. Sebastián Ventura Soto Presidente/a
  2. Óscar Cordón García Secretario/a
  3. María José del Jesús Díaz Vocal

Tipo: Tesis

Resumen

La proliferación del uso de sistemas informáticos en todo tipo de ámbitos, tanto médico, industrial, económico y científico ha traído consigo la generación de volúmenes cada vez mayores de datos. Esto ha provocado la necesidad de generar nuevas tecnologías que permitan el almacenamiento y análisis de dichos datos, a la par que generar nuevas circunstancias donde se pretende extraer conocimiento de los mismos. Uno de los escenarios habituales es el de la detección de anomalías, donde el interés reside en la identificación de una clase minoritaria de los datos, bien porque pueda suponer una amenaza al sistema estudiado, como en el caso de la detección de fraude o en el mantenimiento predictivo de sistemas industriales, o bien en entornos médicos, donde se disponen de pocas muestras de datos de pacientes con una enfermedad frente al común de la población sana y se pretenda detectar dicha enfermedad. El hecho de que el foco caiga sobre la clase minoritaria diferencia la detección de anomalías de la detección de ruido, definido como un efecto sobre los datos que querremos mitigar en la fase de preprocesamiento de los datos pero cuya causa no es relevante para la investigación. Por tanto, podemos identificar dentro del ámbito de la detección de anomalías distintos escenarios en función de la disponibilidad de información en el momento del aprendizaje del algoritmo: escenarios supervisados, asimilables a problemas de clasificación desbalanceada; escenarios semisupervisados o de detección de novedad, donde se genera un modelo de normalidad en base a los datos de la clase mayoritaria, los únicos disponibles en la fase de entrenamiento; y escenarios no supervisados, donde no se dispone de información sobre la clase de las instancias. Estas diferencias derivan en la existencia de distintos métodos de evaluación y en la necesidad de recurrir a mecanismos adicionales para la extracción de conocimiento interpretable en escenarios donde la representación aprendida por el modelo sea insuficiente para la comprensión del problema. En esta tesis nos centramos en el estudio del problema de detección de anomalías para escenarios no supervisados, tanto para problemas de series temporales como para datos estáticos. Este estudio parte de la demarcación del problema dentro del ámbito de la detección de anomalías para pasar al diseño de un algoritmo distribuido para la detección de anomalías válido tanto para datos estáticos como para series temporales enfocado en la obtención de explicaciones para ayudar a la toma de decisiones y la comprensión del conjunto de datos estudiado. Finalmente, se propone un modelo de evaluación para escenarios no supervisados de detección de anomalías en series temporales. En concreto, las propuestas realizadas en el marco de la tesis son: Un modelo distribuido de detección de anomalías enfocado en la explicabilidad. Para este modelo nos basamos en el algoritmo HBOS, que realiza histogramas univariantes para la asignación de puntuación de anomalía, y lo extendemos para la búsqueda de anomalías en subespacios de mayor dimensionalidad. El uso de este algoritmo como base viene justificado por la posibilidad de construir una representación del conocimiento que permite en fases posteriores reconstruir histogramas de subespacios de mayor dimensionalidad aprovechando ciertos cálculos. Además, la representación del conocimiento nos permite incluir una propuesta de construcción de reglas para describir los motivos de la categorización de instancias concretas a través de contrahechos, unas reglas que justifican por qué una instancia pertenece a una clase y no a la otra. En la experimentación asociada a esta propuesta se ve cómo los resultados no son asimilables al estado del arte en la detección de anomalías, siendo el menor rendimiento la contrapartida a la simplicidad del modelo que permite la obtención de reglas. Un modelo de evaluación de algoritmos de detección de anomalías para series temporales. En el ámbito de la detección de anomalías existen múltiples esquemas para la evaluación. En concreto, es habitual encontrar en escenarios de series temporales la aplicación de modelos de predicción de puntuación de anomalía para instancias temporales mientras que identifiquen eventos de interés que ocurren con posterioridad a las predicciones anómalas. Sin embargo, estos métodos plantean problemas como la necesidad de establecer ciertos parámetros para la evaluación como la definición de una ventana previa al evento de interés o pesos para recompensar una detección rápida o la multiplicación del efecto del desbalanceo entre clases. Por ello, proponemos un mecanismo de puntuación basado en la definición de múltiples ventanas previas a los eventos de interés y el uso de una curva ROC generalizada para las distintas ventanas de manera que la agregación de las instancias mediante una función es la puntuación de anomalía para ese intervalo. Esta propuesta incluye una implementación para entornos clásicos y otro para entornos distribuidos y una comparación con una propuesta de medida de evaluación para detección de anomalías asimilable por su trabajo con intervalos, donde mostramos no solo la utilidad de nuestra medida para la evaluación en los escenarios descritos sino también la eficiencia del cómputo de nuestra medida frente a esta alternativa. Las propuestas realizadas vienen a aportar soluciones a problemas concretos de la investigación en detección de anomalías como son la falta de modelos capaces de trabajar en entornos distribuidos y que ofrezcan explicaciones sobre el motivo de la clasificación de una instancia como anómala o normal, y la disociación de ciertos sistemas de evaluación que consideran instancias puntuales para la valoración de eventos que ocurren a lo largo de un período.