Advances in stochastic and functional modeling of high dimension data

Acal González, Christian José

Advances in stochastic and functional modeling of high dimension data

Acal González, Christian José

Dirigida por:

Ana María Aguilera del Pino Director/a
Juan Eloy Ruiz Castro Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 02 de julio de 2021

Tribunal:

María del Mar Rueda García Presidente/a
Francisco de Asís Torres Ruiz Secretario/a
Cristian Preda Vocal
Rosa Elvira Lillo Rodríguez Vocal
Juan Carlos Ruiz Molina Vocal

Tipo: Tesis

Teseo: 665253 DIALNET DIGIBUG editor

Resumen

En muchos campos cient cos, es habitual encontrar magnitudes caracterizadas por la evoluci on de una variable aleatoria a lo largo de alg un continuo (proceso estoc astico). A pesar de que los datos experimentales medidos sobre estas variables son claramente funciones (curvas, super cies o im agenes), hist oricamente su tratamiento ha sido a trav es del an alisis multivariante o de series temporales, perdi endose informaci on importante. Por suerte, los grandes avances que ha experimentado el sector tecnol ogico en los ultimos a~nos, han facilitado el seguimiento y reconstrucci on de las funciones de forma r apida y sin esfuerzo, siendo posible trabajar con las funciones completas. En este escenario, es altamente probable tener datos de alta dimensi on, en los que el n umero de variables es mayor que el n umero de individuos muestreados. Este hecho hace que los m etodos estad sticos tradicionales no sean adecuados. Dependiendo del prop osito nal, en esta tesis se abordan estos datos desde dos perspectivas estad sticas diferentes y complementarias: el An alisis de Datos Funcional (FDA) y el An alisis de la Fiabilidad (RA) basado en las distribuciones de probabilidad Tipo Fase (PH). FDA surge ante la necesidad de construir m etodos que permitan modelizar datos funcionales, cuyas observaciones suelen ser curvas dependiendo del tiempo u otro argumento continuo. En las ultimas d ecadas, se viene realizando una intensa investigaci on en este campo, en el que se han generalizado la mayor a de las t ecnicas multivariantes, especialmente, m etodos de reducci on de la dimensi on, clasi caci on y regresi on. Destaca el An alisis de Componentes Principales (FPCA) porque reduce la dimensi on y explica la estructura de variabilidad en t erminos de un n umero peque~no de variables incorreladas. En el campo de la abilidad, uno de los objetivos es estudiar el comportamiento de sistemas complejos, cuyo funcionamiento est a condicionado por varios factores incontrolables. En este sentido, RA intenta identi car la distribuci on de probabilidad de los datos para arrojar luz sobre la variabilidad que hay detr as del funcionamiento de los sistemas. Una posibilidad es considerar los procesos Markovianos y las distribuciones PH. Esta clase de distribuciones es capaz de aproximar cualquier distribuci on no negativa tanto como se desee gracias a su versatilidad, y permite modelar problemas complejos con resultados bien estructurados. Las contribuciones metodol ogicas de esta tesis se desarrollan en base a problemas de gran inter es impulsados por datos relacionados con las Memorias Resistivas de Acceso Aleatorio (RRAMs) y la pandemia de COVID-19. Las RRAM despiertan un gran inter es porque son una de las principales fuentes de ingresos en la industria, mientras que para mitigar la propagaci on del virus, es crucial desarrollar modelos optimos que ayuden a tomar buenas decisiones. Un nuevo enfoque estad stico basado en las distribuciones PH es desarrollado para analizar la variabilidad de las RRAM, siendo esta uno de los aspectos clave a resolver. Tras un exhaustivo estudio experimental se muestra que las distribuciones PH funcionan mejor que cualquier otra distribuci on y adem as, ayudan a conocer mejor el comportamiento interno de las RRAM. Se construye un nuevo proceso estoc astico de macro-estados considerando el desempe~no interno de los mismos. El tiempo de permanencia en cada uno de estos macro-estado se distribuye mediante una PH. Se muestra como el comportamiento interno del proceso es Markoviano, pero tanto la homogeneidad como la Markovianidad desaparecen para el nuevo modelo de macro-estados. Tambi en se obtienen otras medidas asociadas al modelo. La nueva metodolog a permite modelar sistemas complejos de forma algor tmica, en particular, el ruido producido dentro de las RRAM. FPCA basado en la expansi on de Karhunen-Lo eve permite describir la evoluci on estoc astica de las RRAM. Sin embargo, es esencial identi car la distribuci on de las componentes principales (pc's) para modelizar todo el proceso. Para ello, se introduce una nueva clase de distribuciones, llamada distribuciones Tipo-fase Lineal (LPH). A partir de esta metodolog a se demuestra que, si las pc's siguen una distribuci on LPH, el proceso es caracterizado por una distribuci on LPH en cada punto. En relaci on a las pc's, a veces su interpretaci on no es inmediata y se necesita aplicar una rotaci on para facilitarla. En este sentido, se desarrollan dos nuevos enfoques de rotaci on Varimax funcional basado en la equivalencia entre el FPCA y PCA. El primer m etodo consiste en rotar los autovectores, mientras que el segundo rota las cargas de las puntuaciones de las pc's estandarizadas. Estas rotaciones son aplicadas para interpretar la variabilidad de las curvas de positivos por COVID-19 en las comunidades aut onomas espa~nolas. Adem as, se proponen dos nuevos enfoques param etricos y no param etricos para resolver el problema de la homogeneidad funcional, asumiendo la expansi on b asica de las curvas. Estos m etodos consisten en aplicar los test de homogeneidad multivariante sobre el vector de coe cientes b asicos y sobre el vector de las puntuaciones de las pc's. Esta metodolog a ayudar a a analizar qu e in uencia tienen el material y el grosor empleado en los procesos de fabricaci on sobre el funcionamiento de las RRAM. Para el caso de m as de una variable de respuesta funcional, se extiende la metodolog a anterior basada en el FPCA multivariante para probar la homogeneidad. En particular, se usa para comprobar si existen diferencias signi cativas entre los niveles de varios contaminantes seg un la localizaci on geogr a ca de las estaciones de monitoreo en la Regi on de Abruzzo, Italia. Adem as, se considera un enfoque de medidas repetidas para estudiar si el nivel de cada contaminante se redujo durante el con namiento establecido por el Gobierno Italiano durante la pandemia del COVID-19. Finalmente, se propone un modelo de regresi on m ultiple funci on-sobre-funci on en t erminos de las pc's para la imputaci on de datos faltantes en una variable de respuesta funcional. Se asume que todos los predictores funcionales son completamente observados. Este m etodo permitir a la imputaci on de datos faltantes relacionados con el COVID-19. El contenido de esta tesis est a presentado como un compendio de siete publicaciones. Las versiones completas de los art culos est an incluidas en los Ap endices.