Estimación espacio-temporal de procesos Hilbert-valuados Aplicación a la estimación y predicción funcional de mapas de riesgo de enfermedades

  1. Torres Signes, Antoni
Zuzendaria:
  1. María Dolores Ruiz Medina Zuzendaria
  2. María del Pilar Frías Bustamante Zuzendaria

Defentsa unibertsitatea: Universidad de Granada

Fecha de defensa: 2021(e)ko maiatza-(a)k 21

Epaimahaia:
  1. José Miguel Angulo Ibáñez Presidentea
  2. María Dolores Martínez Miranda Idazkaria
  3. George Christakos Kidea
  4. Tomás Goicoa Mangado Kidea
  5. Rosa M. Crujeiras Casais Kidea

Mota: Tesia

Laburpena

La aplicación de técnicas de análisis de datos funcionales correlados en el tiempo y/o espacio constituye un área de investigación relativamente reciente, donde surgen diversos problemas que aún permanecen abiertos. En particular, se requiere la deducción de modelos probabilísticos (procesos puntuales en espacios de funciones) y estadísticos (series espaciales y temporales funcionales), para el análisis de datos de dimensión elevada que suelen presentar estructuras complejas de correlación en el tiempo y/o espacio. Los procesos puntuales se utilizan para explicar la distribución de los puntos generados por mecanismos aleatorios en el tiempo y/o espacio. Dichos procesos permiten modelizar y analizar la incidencia o mortalidad asociados a una enfermedad. En esta tesis, se ha considerado el contexto de los procesos de recuento doblemente estocásticos o procesos de Cox. En particular, se ha adoptado un enfoque estadístico infinito-dimensional, basado en modelos lineales funcionales, para la descripción estadística de la log-intensidad aleatoria. La dinámica espacio-temporal de estos modelos se analiza mediante procesos temporales o espaciales, con valores en un espacio de funciones apropiado. La complejidad de dichos modelos, dada la elevada dimensión del espacio de parámetros (en bastantes ocasiones se trabaja con espacios infinitodimensionales), hace imprescindible la implementación de técnicas apropiadas de reducción de la dimensión, así como la implementación de procedimientos de selección de modelos. Desde el punto de vista teórico, en los siguientes capítulos, se introducen nuevos escenarios para poder aplicar diferentes metodologías de estimación. Por un lado, se desarrollan los procesos de Cox log-gaussianos en espacios de Hilbert con intensidad aleatoria dada por un proceso Ornstein-Uhlenbeck que se aproxima mediante un proceso autorregresivo hilbertiano (ARH). Estos patrones temporales se analizan desde una perspectiva de datos funcionales co-rrelados en el tiempo. Por otro lado, se desarrollan los procesos de Cox dirigidos por log-intensidades espaciales infinito-dimensionales lineales, en este caso, estos patrones espaciales se analizan desde una perspectiva de datos funcionales correlados en el espacio. En cuanto a los enfoques metodológicos adoptados para la estimación, en el ámbito de procesos de Cox dirigidos por una log-intensidad O-U Hilbertvaluada, aproximada mediante un proceso ARH(1), se ha utilizado el método de los momentos empíricos. En el caso de procesos de Cox espaciales dirigidos mediante una log-intensidad aleatoria lineal espacial infinito-dimensional, para la estimación de los parámetros que modelizan la estructura paramétrica del operador de densidad espectral, bajo la condición de estacionariedad espacial, se han aplicado técnicas espectrales funcionales basadas en el operador periodograma que extienden el funcional de Whittle. Como análisis preliminar, se contribuye, en el caso de procesos espaciales real-valuados estacionarios en el espacio, con la obtención de condiciones suficientes que garantizan la consistencia y normalidad asintótica de estimadores de mínimo contraste, basados en el periodograma tapered. De forma concreta, en esta tesis, a partir de una perspectiva de procesos de Cox infinito-dimensionales, o bien, procesos de Cox dirigidos por logintensidades lineales infinito-dimensionales, no necesariamente gaussianas, dentro del ámbito del análisis estadístico funcional de patrones puntuales en el tiempo y/o espacio, se han establecido las siguientes contribuciones: Estudio de consistencia y normalidad asintótica de los estimadores de mínimo contraste para procesos espaciales. Introducción de la clase de procesos temporales de Cox log-gaussianos con log-intensidad aleatoria definida por un proceso Ornstein-Uhlenbeck Hilbert-valuado. Aproximación de los procesos Ornstein-Uhlenbeck Hilbert-valuados mediante procesos ARH(1), utilizando la estimación a partir del método de momentos empíricos y cálculo del predictor plug-in asociado. Introducción de una nueva clase de procesos de Cox dirigidos mediante una log-intensidad lineal Hilbert-valuada. Aquí, la condición de proceso log-gaussiano, o de log-intensidad gaussiana, no es necesaria. Tampoco se requiere en la introducción, ni para el resultado de consistencia, que la log-intensidad sea SARH(1). Sólo se considera de esta forma en la simulación y aplicación. Introducción de nuevas técnicas de estimación por mínimo contraste componente a componente para la familia de procesos anteriormente introducida (en particular, con intensidad SARH). Desarrollo de las condiciones que garantizan la consistencia fuerte de los estimadores propuestos. Ajuste de modelos de tendencia lineal y no lineal en un marco estadístico infinito-dimensional para procesos espacio-temporales de log-riesgo de incidencia y mortalidad en enfermedades. Análisis de los residuos de regresión mediante un enfoque autorregresivo hilbertiano en el contexto bayesiano. Comparación, mediante validación cruzada y técnicas bootstrap, de los enfoques presentados con modelos de regresión o predicción basados en aprendizaje automático. La epidemiología y el estudio en general de la evolución, tanto espacial como temporal, de diversas enfermedades ha sido el marco fundamental considerado para plasmar las contribuciones indicadas. En concreto, se han utilizado datos reales para la estimación y predicción funcional en el tiempo y en el espacio del cáncer de próstata, mama y encéfalo, así como enfermedades respiratorias, en las provincias españolas, a partir de observaciones anuales o mensuales, en periodos que oscilan en torno a treinta años. Además, mediante la implementación de técnicas vistas a lo largo de la tesis, se ha llevado a cabo una aplicación a datos reales, para el análisis de la incidencia de una enfermedad en territorio extranjero. En particular, se ha modelizado la evolución de fiebre de dengue en países americanos durante los últimos años. Por otro lado, dada la situación de emergencia social provocada por la pandemia de COVID–19 en la última etapa de desarrollo de la tesis, se ha considerado pertinente incluir un estudio estadístico sobre la estimación de la evolución espacio-temporal del riesgo de mortalidad, así como de los casos de mortalidad diaria ocasionados por dicha enfermedad en las comunidades autónomas, que permite reflejar, entre otros aspectos, el efecto del primer estado de alarma sobre el comportamiento de dicha evolución. De esta manera, se ha modelizado la mortalidad diaria por COVID–19, en las comunidades españolas, durante la primera ola, en concreto, desde el 8 de marzo de 2020 hasta el 13 de mayo de 2020. Estas últimas aplicaciones prácticas se han desarrollado, a partir de las técnicas estadísticas infinito-dimensionales propuestas en el desarrollo de la tesis, bajo un enfoque clásico y bayesiano, con modificaciones en la metodología de estimación. Posteriormente, en ambos casos se ha realizado una comparativa empírica con otros enfoques. En el caso del riesgo de incidencia anual por fiebre del dengue en países americanos, se ha realizado una comparativa con modelos espacio-temporales tradicionales, incluyendo un modelo de Leroux, un modelo Autorregresivo Condicionado Intrínseco y otro modelo de Besag, York y Mollie. En el caso del riesgo de mortalidad diario por COVID–19 en las comunidades autónomas españolas, los enfoques propuestos se han comparado con otra metodología basada en la estimación por intervalos de confianza y densidades de probabilidad mediante técnicas bootstrap, así como con una batería de modelos en el contexto de Machine Learning, incluyendo Redes Neuronales de Regresión Generalizada, Perceptrón Multicapa, Regresión de Soporte Vectorial, Redes Neuronales Bayesianas, Redes Neuronales a partir de Bases de Funciones Radiales, y Procesos Gaussianos. Además se aborda la selección de modelos en el contexto de la regresión no lineal paramétrica.