Time series analysis in big data environments

  1. Baldán Lozano, Francisco Javier
Dirigida por:
  1. José Manuel Benítez Sánchez Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 10 de diciembre de 2021

Tribunal:
  1. María Jesús de la Fuente Aparicio Presidente/a
  2. Rafael Alcalá Fernández Secretario
  3. Frank Klawonn Vocal
  4. María José Martín Bautista Vocal
  5. G.I. Sáinz Vocal

Tipo: Tesis

Resumen

Esta tesis doctoral aborda diferentes temas: clasificación de series temporales en entornos Big Data y representaciones para series temporales. El trabajo realizado ha considerado tanto series univariables como multivariables. Para abordar el contexto Big Data se han propuesto métodos escalables y distribuidos de procesamiento de series temporales. Se ha formalizado una nueva representación de series temporales donde prima el objetivo de la interpretabilidad de los modelos construidos. Los resultados alcanzados han sido: 1. Propuesta de un algoritmo de clasificación de series temporales en Big Data, a partir de una generalización del método de Shapelets. 2. Propuesta de una nueva representación de las series temporales univariables por medio de un conjunto de medidas de complejidad y características bien conocidas en el campo de las series temporales, capaz de ofrecer unos resultados competitivos y mejorar la interpretabilidad de los modelos construidos. Esta nueva representación abre un nuevo campo de aplicaciones, extensibles a diversos problemas de modelado y aprendizaje. 3. Extensión de la nueva representación de series temporales al caso multivariable. Los modelos construidos en este contexto conllevan una mejora sustancial de la interpretabilidad y mantienen la competitividad en los resultados en términos de rendimiento. 4. Desarrollo de un algoritmo para clasificación de series temporales univariables y multivariables en entornos Big Data. Este algoritmo se basa en la nueva representación de las series temporales propuesta y se ha evaluado en el problema de clasificación de mayor dimensión entre los disponibles en la literatura científica. Los resultados experimentales obtenidos son los mejores, en términos de rendimiento de los publicados hasta la fecha sobre el problema. Para alcanzar estos resultados se ha trabajado tanto en entornos secuenciales como en entornos distribuidos. Los algoritmos escalables diseñados se han implementado sobre Apache Spark, utilizando el lenguaje de programación Scala. Las implementaciones, liberadas con licencias de software libre, han contribuido a aumentar el limitado número de herramientas disponibles de procesamiento de series temporales en entornos Big Data. El desarrollo de la nueva representación de las series temporales y la posterior transformación a entornos multivariable han sido realizados en el lenguaje R.