New approaches to improve the performance of machine learning and deep learning algorithms in solving real-world problems: companies' financial failure forecasting

Aljawazneh, Huthaifa Riyad Dheif Allah

New approaches to improve the performance of machine learning and deep learning algorithms in solving real-world problemscompanies' financial failure forecasting

Aljawazneh, Huthaifa Riyad Dheif Allah

Dirigée par:

Antonio Mora García Directeur/trice
Pedro Ángel Castillo Valdivieso Directeur/trice

Université de défendre: Universidad de Granada

Fecha de defensa: 20 décembre 2021

Jury:

Nuria Medina Medina President
M. I. García Arenas Secrétaire
Víctor Manuel Rivas Santos Rapporteur
Raúl Lara Cabrera Rapporteur
Juan Luis Jiménez Laredo Rapporteur

Type: Thèses

Teseo: 704035 DIALNET DIGIBUG editor

Résumé

La predicción de la quiebra de empresas se considera como un problema crítico en el mundo real, ya que muchas empresas necesitan tener previsiones de su situación financiera futura para adaptarse al entorno financiero y empresarial del momento y evitar la quiebra. Tanto los bancos como los inversores están interesados en disponer de información sobre el estado financiero futuro de las empresas, como requisito para apoyar la decisión de conceder préstamos a las empresas en algunos casos. Así pues, el objetivo principal de esta tesis doctoral es mejorar el rendimiento de diversos algoritmos de Machine Learning y Deep Learning ante el problema de la predicción de la quiebra de empresas. El principal reto es la escasez de patrones de quiebra de empresas en el mundo real, lo que hace que los conjuntos de datos financieros de las empresas reales estén extremadamente desbalanceados. En otras palabras, hay una distribución inconsistente de los datos financieros en los conjuntos de datos que afecta al rendimiento general y a la fiabilidad de los clasificadores. Para solventar este problema se han propuesto nuevos enfoques sencillos de ‘remuestreo’ de datos para resolver el problema del balanceo de los conjuntos de datos. Los métodos propuestos tienen como objetivo principal evitar el sobreajuste que surge como consecuencia de replicar las instancias minoritarias (registros de empresas en quiebra) para equilibrar el conjunto de datos, lo cual se hace en algunos métodos simples, y también para evitar la pérdida de información importante que se produce como consecuencia de la eliminación de algunas instancias de la clase mayoritaria (registros de empresas solventes), que se realiza en otros métodos, para hacer frente al problema del desbalanceo de los datos. Así, los enfoques simples de equilibrado propuestos se basan principalmente en dividir el conjunto de datos desequilibrado en varios subconjuntos equilibrados que son procesados por los clasificadores de forma individual. Junto con esto, se ha realizado un análisis exhaustivo del impacto que tiene el uso de varios métodos de balanceado de datos en el rendimiento de diferentes algoritmos de clasificación clásicos para la predicción de la quiebra de empresas. Este análisis tiene como objetivo obtener la técnica de balanceado más adecuada para resolver el problema de distribución desbalanceada de datos financieros. Además, con el fin de mejorar el rendimiento de los clasificadores clásicos en la predicción de la quiebra de empresas, se han utilizado técnicas en cascada para crear clasificadores híbridos que ofrezcan un mejor rendimiento que el obtenido utilizando los clasificadores independientes más sencillos. Una aportación adicional de esta tesis doctoral es el estudio de la configuración óptima de diferentes algoritmos de Deep Learning, estableciendo un número adecuado de capas ocultas, así como de los valores de los hiperparámetros de dichos métodos, a fin de para obtener el máximo rendimiento en la predicción de la quiebra de empresas. Finalmente, se ha desarrollado una nueva técnica de balanceo de datos denominada Distance Based Border Instances SMOTE (DBBI-SMOTE) para resolver el desbalanceo de datos financieros. Este nuevo método evita algunos problemas, de los métodos de balanceo de datos existentes actualmente, como por ejemplo, generar nuevas instancias minoritarias en la región mayoritaria. Asimismo, el nuevo método supera en rendimiento a muchos otros mencionados en la literatura. La aplicación de este nuevo método es una etapa de preprocesamiento que se aplica a varios clasificadores estándar y agrupados, obteniendo así una mejora claramente significativa en su fiabilidad y rendimiento general.