Time series analysis in big data environments

Baldán Lozano, Francisco Javier

Time series analysis in big data environments

Baldán Lozano, Francisco Javier

unter der Leitung von:

José Manuel Benítez Sánchez Doktorvater/Doktormutter

Universität der Verteidigung: Universidad de Granada

Fecha de defensa: 10 von Dezember von 2021

Gericht:

María Jesús de la Fuente Aparicio Präsident/in
Rafael Alcalá Fernández Sekretär
Frank Klawonn Vocal
María José Martín Bautista Vocal
G.I. Sáinz Vocal

Art: Dissertation

Teseo: 690834 DIALNET DIGIBUG editor

Zusammenfassung

Esta tesis doctoral aborda diferentes temas: clasificación de series temporales en entornos Big Data y representaciones para series temporales. El trabajo realizado ha considerado tanto series univariables como multivariables. Para abordar el contexto Big Data se han propuesto métodos escalables y distribuidos de procesamiento de series temporales. Se ha formalizado una nueva representación de series temporales donde prima el objetivo de la interpretabilidad de los modelos construidos. Los resultados alcanzados han sido: 1. Propuesta de un algoritmo de clasificación de series temporales en Big Data, a partir de una generalización del método de Shapelets. 2. Propuesta de una nueva representación de las series temporales univariables por medio de un conjunto de medidas de complejidad y características bien conocidas en el campo de las series temporales, capaz de ofrecer unos resultados competitivos y mejorar la interpretabilidad de los modelos construidos. Esta nueva representación abre un nuevo campo de aplicaciones, extensibles a diversos problemas de modelado y aprendizaje. 3. Extensión de la nueva representación de series temporales al caso multivariable. Los modelos construidos en este contexto conllevan una mejora sustancial de la interpretabilidad y mantienen la competitividad en los resultados en términos de rendimiento. 4. Desarrollo de un algoritmo para clasificación de series temporales univariables y multivariables en entornos Big Data. Este algoritmo se basa en la nueva representación de las series temporales propuesta y se ha evaluado en el problema de clasificación de mayor dimensión entre los disponibles en la literatura científica. Los resultados experimentales obtenidos son los mejores, en términos de rendimiento de los publicados hasta la fecha sobre el problema. Para alcanzar estos resultados se ha trabajado tanto en entornos secuenciales como en entornos distribuidos. Los algoritmos escalables diseñados se han implementado sobre Apache Spark, utilizando el lenguaje de programación Scala. Las implementaciones, liberadas con licencias de software libre, han contribuido a aumentar el limitado número de herramientas disponibles de procesamiento de series temporales en entornos Big Data. El desarrollo de la nueva representación de las series temporales y la posterior transformación a entornos multivariable han sido realizados en el lenguaje R.