Nuevos modelos de aprendizaje híbrido para clasificación y ordenamiento multi-etiqueta

Reyes Pupo, Óscar Gabriel

Nuevos modelos de aprendizaje híbrido para clasificación y ordenamiento multi-etiqueta

Reyes Pupo, Óscar Gabriel

Dirigida por:

Sebastián Ventura Soto Director/a

Universidad de defensa: Universidad de Córdoba (ESP)

Fecha de defensa: 21 de noviembre de 2016

Tribunal:

María José del Jesús Díaz Presidenta
Eva Gibaja Galindo Secretario/a
Luciano Sánchez Ramos Vocal

Tipo: Tesis

Teseo: 443008 DIALNET Helvia editor

Resumen

1. Introducción En la última década, el aprendizaje multi-etiqueta se ha convertido en una importante área de investigación, debido en gran parte al creciente número de problemas reales que contienen datos multi-etiqueta [1]. Los problemas multi-etiqueta involucran ejemplos que pertenecen, al mismo tiempo, a un conjunto de etiquetas. Problemas reales que involucran datos multi-etiqueta han sido abordados en áreas como: clasificación de textos [2, 3], anotación semántica de imágenes [4,5], clasificación de música y videos [6,7], clasificación de la función de las proteínas y genes [8,9] y análisis químico [10]. En esta tesis se estudiaron dos problemas sobre datos multi-etiqueta, la mejora del rendimiento de los algoritmos en datos multi-etiqueta complejos, y la mejora del rendimiento de los algoritmos a partir de datos no etiquetados. 1.1 Mejora del rendimiento en datos multi-etiqueta complejos Los conjuntos de datos multi-etiqueta, provenientes en su mayoría de los dominios de textos, multimedia, y biología, comúnmente tienen un elevado número de atributos [2, 3, 11, 12]. Los atributos irrelevantes, redundantes o ruidosos tienen un impacto negativo en el rendimiento de los algoritmos de aprendizaje automático (ML, Machine Learning). Además, existen varios escenarios donde el número de atributos es mucho mayor que el número de ejemplos [2, 11, 12]. Por otra parte, en algunos dominios el número de etiquetas puede ser de cientos (incluso miles) y se puede observar una distribución no uniforme de ejemplos por etiquetas (datos desbalanceados) [7, 8, 11, 13, 14]. Todas estas características que presentan los datos multi-etiqueta implican otros desafíos que deben enfrentar los algoritmos de ML. Consecuentemente, algunos de los algoritmos multi-etiqueta existentes en la literatura presentan un pobre rendimiento, entre ellos los algoritmos de vecindad [15]. Las técnicas de preprocesamiento de datos han demostrado ser de suma importancia en el proceso de descubrimiento de conocimiento en bases de datos. Técnicas de ingeniería de atributos tales como el Pesado de Atributos (FW, Feature Weighting) y la Selección de Atributos (FS, Feature Selection) mejoran significativamente el rendimiento de los algoritmos de ML [16-18]. Un número considerable de métodos de FW y FS para datos mono-etiqueta han sido propuestos en la literatura. Sin embargo, todavía no se ha abordado lo suficiente acerca de cómo hacer FW y FS en datos multi-etiqueta. En general, la estimación de los atributos en datos multi-etiqueta se ha realizado mediante la descomposición de los problemas multi-etiqueta en problemas mono-etiqueta mediante un Método de Transformación de Problemas (PTM, Problem Transformation Method). Sin embargo, una de las principales desventajas que acarrea el uso de los PTM es el deterioro de la eficiencia computacional en conjuntos de datos con un elevado número de etiquetas. Por lo tanto, hoy en día el desarrollo de nuevos métodos de FW y FS con altos niveles de rendimiento es un desafío y constituye un campo abierto de investigación. Por otro lado, es conocido que los algoritmos de vecindad generalmente no construyen un modelo a partir del conjunto de datos de entrenamiento. En esta familia de métodos se destacan los algoritmos KNN [19], los cuales son uno de los algoritmos de aprendizaje más simples. En el contexto multi-etiqueta se han propuesto varios algoritmos de vecindad [20-25]. Sin embargo, aún persiste la necesidad de desarrollar métodos de vecindad que no deterioren su rendimiento ante conjuntos de datos multi-etiqueta con un elevado número de ejemplos, etiquetas, atributos, datos desbalanceados, etc. En este sentido las técnicas de FW pueden jugar un papel importante, pues mediante un ajuste adecuado de los pesos de los atributos, una función de distancia puede retornar ejemplos con subconjuntos de etiquetas relevantes para la clasificación de un ejemplo de prueba, lo cual mejora significativamente el desempeño de estos tipos de algoritmos. Por último, existen enfoques interesantes que han obtenido buenos resultados en el diseño de algoritmos de vecindad para datos mono-etiqueta, los cuales pueden ser fácilmente adaptados al contexto multi-etiqueta. En este sentido, la aplicación del enfoque Clasificación basada en Gravitación de Datos (DGC, Data Gravitation Classification) [26] podría ser efectivo en el diseño de algoritmos de vecindad para datos multi-etiqueta. DGC es una aproximación para el ML basada en los principios de la ley universal de gravitación de Newton. Entre sus principales ventajas se encuentran que está basado en principios simples que permiten tener una alta eficiencia computacional, y es menos sensible a los problemas que afectan a los algoritmos KNN [27]. 1.2 Mejora del rendimiento a partir de datos no etiquetados En general, los problemas multi-etiqueta provenientes de dominios de clasificación de texto y multimedia se caracterizan por involucrar colecciones de datos con un elevado número de ejemplos [3, 4, 28-32]. El etiquetado de datos suele acarrear un alto costo en dominios de aplicación donde se disponen de conjuntos de datos con un elevado número de ejemplos y etiquetas. Los ejemplos deben ser etiquetados múltiple veces, puesto que un ejemplo puede pertenecer a varias etiquetas al mismo tiempo. Consecuentemente, en estos tipos de escenarios es común disponer de un pequeño número de ejemplos etiquetados y de un gran número de ejemplos sin etiquetar. En los últimos años, el aprendizaje activo (AL, Active Learning) ha ganado en popularidad debido al creciente número de problemas reales que presentan una considerable cantidad de datos no etiquetados [33]. El principal objetivo del AL es el aprendizaje de mejores clasificadores mediante la selección iterativa de ejemplos no etiquetados, de esta manera se reducen los costos de etiquetado y de entrenar un modelo más preciso. El principal desafío que deben resolver los métodos de AL en el contexto multi-etiqueta es la definición de una estrategia efectiva que cuantifique el potencial informativo de un ejemplo no etiquetado a través de todas las posibles etiquetas. Los trabajos más relevantes de aprendizaje activo multi-etiqueta (MLAL, Multi-label Active Learning) han aparecido en [34-52]. La mayoría de los métodos de MLAL propuestos en la literatura hacen uso de un PTM para descomponer el problema multi-etiqueta en varios problemas mono-etiqueta. Esto trae como consecuencia que algunos de estos métodos de MLAL tengan un alto costo computacional. Por otra parte, varios de estos métodos de MLAL están estrechamente relacionados con el clasificador base empleado, comúnmente utilizan el método de descomposición Relevancia Binaria en conjunto con Máquinas de Soporte Vectorial. Consecuentemente, la adaptación de estos métodos de MLAL a otros tipos de clasificadores bases no se puede realizar o resulta un proceso complejo de hacer. En este sentido, sería interesante el desarrollo de nuevos métodos de MLAL que no estén restringidos a un clasificador base y que estimen directamente la utilidad de un ejemplo no etiquetado sin necesidad de emplear un PTM. Por otro lado, la mayoría de los métodos de MLAL existentes seleccionan un ejemplo no etiquetado en cada iteración. Sin embargo, en disímiles escenarios, tales como en el proceso de inducción de clasificadores con un alto costo de entrenamiento o en sistemas donde el etiquetado paralelo es posible, se prefiere la selección de un conjunto de ejemplos, conocido en la literatura como AL en modo de lotes (BMAL, Batch-Mode Active Learning). En el problema de BMAL se desea seleccionar un conjunto de ejemplos no etiquetados en cada iteración, de tal manera que los ejemplos seleccionados son informativos y la redundancia de información entre ellos es mínima. En [42, 49] se han propuesto los trabajos más relevantes de BMAL en el contexto multi-etiqueta. Sin embargo, se considera que esta línea de investigación aún se encuentra poco estudiada. 2. Contenido de la investigación 2.1 Mejora del rendimiento en datos multi-etiqueta complejos Se presentó un método para el pesado de atributos sobre datos multi-etiqueta. La estimación de los pesos de los atributos se realiza mediante una heurística basada en una medida de similaridad. Para hallar un vector de pesos adecuado, se formuló un problema de optimización y este problema fue resuelto mediante un algoritmo genético. A continuación, se propuso un método de pesado de atributos basado en el enfoque filtro más eficiente y efectivo que el mencionado anteriormente. El problema de optimización formulado para encontrar el mejor vector de pesos fue resuelto mediante el algoritmo evolutivo CMA-ES (Covariance Matrix Adaptation Evolution Strategy) [53, 54]. Por otro lado, se diseñaron tres extensiones del conocido algoritmo de estimación de atributos ReliefF [55]. Una de las extensiones emplea un PTM para mejorar la escalabilidad en conjuntos de datos que presentan un gran número de conjuntos diferentes de etiquetas, mientras que las otras dos extensiones manipulan directamente los datos multi-etiqueta. Finalmente, se propuso un algoritmo de vecindad basado en los principios de DGC. El algoritmo propuesto manipula directamente los datos multi-etiqueta. Se considera cada ejemplo de entrenamiento como una partícula atómica. De esta manera se evitan los problemas que presentan los algoritmos mono-etiqueta basados en DGC a la hora de construir partículas artificiales a partir de varios ejemplos. En la formulación del algoritmo, se introduce un concepto llamado “Coeficiente de Gravitación basado en Vecindad”, el cual sustituye la masa de las partículas en el cálculo de las fuerzas de gravitación. 2.2 Mejora del rendimiento a partir de datos no etiquetados Se formuló una estrategia de MLAL, llamada CVIRS (Category Vector Inconsistency and Ranking of Scores). CVIRS define dos medidas de incertidumbre para la selección de los ejemplos no etiquetados, la primer medida está asociada a la incertidumbre en la predicción del clasificador base, y la segunda medida representa la inconsistencia de un conjunto de etiquetas predicho. CVIRS no utiliza un PTM y puede ser usado con cualquier clasificador base del cual se puedan obtener estimaciones de probabilidades a partir de sus salidas. Por otro lado, se propuso un método de BMAL para datos multi-etiqueta, llamado ESBMAL (Evolutionary Strategy for Batch-Mode Multi-Label Active Learning). ESBMAL formula el problema de BMAL como un problema multi-objetivo, y resuelve este último mediante el popular algoritmo NSGA-II [56]. El algoritmo evolutivo intenta optimizar tres medidas basadas en información, diversidad y representatividad, respectivamente. ESBMAL puede ser usado con cualquier clasificador base del cual se puedan obtener estimaciones de probabilidades a partir de sus salidas. Como resultados complementarios derivados de esta tesis, se desarrolló una librería de clases que favorece la implementación de métodos de aprendizaje activo y la experimentación en esta área de estudio. Además, se propusieron dos aproximaciones que permiten evaluar el rendimiento de las técnicas de aprendizaje activo de una manera más adecuada y efectiva que la empleada comúnmente en la literatura. 3. Conclusión Se propusieron un total de cinco métodos de estimación de atributos para datos multi-etiqueta. Dos métodos emplean algoritmos evolutivos, mientras que los otros tres métodos propuestos son extensiones del conocido algoritmo de estimación de atributos ReliefF. Los tres algoritmos basados en ReliefF son más eficientes computacionalmente que los otros dos métodos que emplean técnicas de computación evolutiva. Los resultados mostraron que los métodos propuestos son efectivos en las tareas de FW y FS. Se diseñó un algoritmo de vecindad basado en el enfoque de DGC. El nuevo concepto llamado “Coeficiente de Gravitación basado en Vecindad” logra que se obtengan mayores niveles de precisión en la clasificación. Los resultados mostraron que el algoritmo propuesto obtuvo una efectividad superior en comparación a los algoritmos de vecindad del estado del arte. El método propuesto garantiza un balance adecuado entre eficiencia y efectividad en su solución ante datos multi-etiqueta complejos. Se diseñaron dos estrategias de MLAL. Las estrategias propuestas pueden ser usadas con cualquier clasificador base del cual se puedan obtener estimaciones de probabilidades a partir de sus salidas, y no necesitan descomponer el problema multi-etiqueta en problemas mono-etiqueta. Los resultados experimentales mostraron que las estrategias propuestas superan significativamente a las estrategias existentes en la literatura. Todos los métodos propuestos en esta tesis han sido evaluados en un marco experimental adecuado, se utilizaron numerosos conjuntos de datos y se compararon los rendimientos de los algoritmos frente a otros métodos del estado del arte. Los resultados obtenidos, los cuales fueron verificados mediante la aplicación de test estadísticos no parámetricos, demuestran la efectividad de los métodos propuestos y de esta manera comprueban las hipótesis planteadas en esta tesis. 4. Bibliografía [1] E. Gibaja and S. Ventura, “Multi-label learning: a review of the state of the art and ongoing research,” Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, vol. 4, no. 6, pp. 411–444, 2014. [2] J. P. Pestian, C. Brew, P. Matykiewicz, D. J. Hovermale, N. Johnson, K. B. Cohen, and W. Duch, “A shared task involving multi-label classification of clinical free text,” in Proceedings of the Workshop on Biological, Translational, and Clinical Language Processing (BioNLP’2007). Stroudsburg, PA, United States of America: Association for Computational Linguistics, 2007, pp. 97–104. [3] I. Katakis, G. Tsoumakas, and I. Vlahavas, “Multilabel text classification for automated tag suggestion,” in Proceedings of the ECML/PKDD Discovery Challenge, vol. 75, 2008. [4] K. Barnard, P. Duygulu, N. de Freitas, D. Forsyth, D. Blei, and M. I. Jordan, “Matching words and pictures,” Journal of Machine Learning Research, vol. 3, pp. 1107–1135, 2003. [5] E. Correa, A. Plastino, and A. Freitas, “A Genetic Algorithm for Optimizing the Label Ordering in Multi-Label Classifier Chains,” in Proceedings of the 25th International Conference on Tools with Artificial Intelligence (ICTAI’2013). IEEE, 2013, pp. 469–476. [6] M. Boutell, J. Luo, X. Shen, and C. Brown, “Learning multi-label scene classification,” Pattern Recognition, vol. 37, no. 9, pp. 1757–1771, 2004. [7] D. Turnbull, L. Barrington, D. Torres, and G. Lanckriet, “Semantic annotation and retrieval of music and sound effects,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, no. 2, pp. 467–476, 2008. [8] F. Otero, A. Freitas, and C. Johnson, “A hierarchical multi-label classification ant colony algorithm for protein function prediction,” Memetic Computing, vol. 2, no. 3, pp. 165–181, 2010. [9] M. G. Larese, P. Granitto, and J. Gómez, “Spot defects detection in cDNA microarray images,” Pattern Analysis and Applications, vol. 16, no. 3, pp. 307–319, 2013. [10] E. Ukwatta and J. Samarabandu, “Vision based metal spectral analysis using multi-label classification,” in Canadian Conference on Computer and Robot Vision (CRV’2009). IEEE, 2009, pp. 132–139. [11] N. Ueda and K. Saito, “Parametric mixture models for multi-labeled text,” in Proceedings of Advances in Neural Information Processing Systems (NIPS’2015). MIT Press, 2002, pp. 737–744. [12] S. Diplarisa, G. Tsoumakas, P. Mitkas, and I. Vlahavas, “Protein classification with multiple algorithms,” in Proceedings of the 10th Panhellenic Conference on Informatics (PCI’2005), ser. LNCS, vol. 3746. Springer, 2005, pp. 448–456. [13] S. Dendamrongvit, P. Vateekul, and M. Kubat, “Irrelevant attributes and imbalanced classes in multi-label text-categorization domains,” Intelligent Data Analysis, vol. 15, no. 6, pp. 843–859., 2011. [14] F. Charte, A. J. Rivera, M. J. del Jesus, and F. Herrera, “Addressing imbalance in multilabel classification: Measures and random resampling algorithms,” Neurocomputing, vol. 163, pp. 3–16, 2015. [15] G. Madjarov, D. Kocev, and D. Gjorgjevikj, “An extensive experimental comparison of methods for multi-label learning,” Pattern Recognition, vol. 45, pp. 3084–3104, 2012. [16] K. Kira and L. Rendell, “A practical approach to feature selection,” in Proceedings of the ninth International Workshop on Machine learning. Morgan Kaufmann, 1992, pp. 249–256. [17] D. Wettschereck, D. W. Aha, and T. Mohri, “A review and empirical evaluation of feature weighting methods for a class of lazy learning algorithms,” Artificial Intelligence Review, vol. 11, pp. 273–314, 1997. [18] A. Abraham, E. Corchado, and J. Corchado, “Hybrid learning machines,” Neurocomputing, vol. 72, pp. 2729–2730, 2009. [19] T. Cover and P. Hart, “Nearest neighbor pattern classification,” IEEE Transactions on Information Theory, vol. 13, no. 1, pp. 21–27, 1967. [20] M. L. Zhang and Z. H. Zhou, “ML-k NN: A lazy learning approach to multi-label learning,” Pattern Recognition, vol. 40, no. 7, pp. 2038–2048, 2007. [21] E. Spyromitros, G. Tsoumakas, and I. Vlahavas, “An empirical study of lazy multi-label classification algorithms,” in Artificial Intelligence: Theories, Models and Applications. Springer, 2008, pp. 401–406. [22] Z. Younes, F. Abdallah, and T. Denceux, “Multi-label classification algorithm derived from k-nearest neighbor rule with label dependencies,” in Proceedings of the 16th Eropean Signal Processing Conference (EUSIPCO’2008). IEEE, 2008, pp. 1–5. [23] K. Brinker and E. Hullermeier, “Case-based multilabel ranking,” in Proceedings of the 20th International Conference on Artificial Intelligence (IJCAI’2007), 2007, pp. 702–707. [24] Z. Younes, F. Abdallah, and T. Denoux, “Fuzzy multi-label learning under veristic variables,” in Proceedings of International Conference on Fuzzy Systems. IEEE, 2010, pp. 1–8. [25] J. Xu, “Multi-label weighted k-nearest neighbor classifier with adaptive weight estimation,” in Proceedings of the ICONIP’2011, Neural Information Processing, ser. LNCS, vol. 7073. Springer, 2011, pp. 79–88. [26] L. Peng, B. Peng, Y. Chen, and A. Abraham, “Data gravitation based classification,” Information Sciences, vol. 179, no. 6, pp. 809–819, 2009. [27] A. Cano, A. Zafra, and S. Ventura, “Weighted Data Gravitation Classification for Standard and Imbalanced Data,” IEEE Transactions on Cybernetics, vol. 43, no. 6, pp. 1672–1687, 2013. [28] G. Tsoumakasa, I. Katakis, and I. Vlahavas, “Effective and efficient mul-tilabel classification in domains with large number of labels,” in Proceedings of the ECML/PKDD Workshop on Mining Multidimensional Data (MMD’2008), 2008, pp. 30–44. [29] A. Srivastava and B. Zane-Ulman, “Discovering recurring anomalies in text reports regarding complex space systems,” in Proceedings of the Aerospace Conference. IEEE, 2005, pp. 55–63. [30] C. Snoek, M. Worring, J. van Gemert, J. Geusebroek, and A. Smeulders, “The challenge problem for automated detection of 101 semantic concepts in multimedia,” in Proceedings of the 14th annual ACM International Conference on Multimedia. Santa Barbara, United States of America: ACM, 2006, pp. 421–430. [31] E. L. Mencía and J. Furnkranz, “Efficient pairwise multi-label classification for large-scale problems in the legal domain,” in Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML/PKDD’2008). Antwerp, Belgium: Springer-Verlag, 2008, pp. 50–65. [32] T. S. Chua, J. Tang, R. Hong, H. Li, Z. Luo, and Y. T. Zheng, “NUS-WIDE: A Real-World Web Image Database from National University of Singapore,” in Proceedings of the ACM International Conference on Image and Video Retrieval. Greece: ACM, 2009. [33] B. Settles, Active Learning, 1st ed., ser. Synthesis Lectures on Artificial Intelligence and Machine Learning. Morgan & Claypool, 2012. [34] X. Li, L. Wang, and E. Sung, “Multi-label SVM active learning for image classification,” in Proceedings of the International Conference on Image Processing (ICIP’2004), vol. 4. IEEE, 2004, pp. 2207–2210. [35] K. Brinker, From Data and Information Analysis to Knowledge Engineering. Springer, 2006, ch. On Active Learning in Multi-label Classification, pp. 206–213. [36] G. Qi, X. Hua, Y. Rui, J. Tang, and H. Zhang, “Two-dimensional active learning for image classification,” in Proceedings of the Conference on Computer Vision and Pattern Recognition (CVPR’2008). IEEE, 2008, pp. 1–8. [37] ——, “Two-dimensional multi-label active learning with an efficient online adaptation model for image classification,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 99, no. 1, 2009. [38] B. Yang, J. Sun, T. Wang, and Z. Chen, “Effective multi-label active learning for text classification,” in Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France: ACM, 2009, pp. 917–926. [39] X. Zhang, J. Cheng, C. Xu, H. Lu, and S. Ma, “Multi-view multi-label active learning for image classification,” in Proceedings of the IEEE International Conference on Multimedia and Expo (ICME’2009). IEEE, 2009, pp. 258–261. [40] A. Esuli and F. Sebastiani, “Active Learning Strategies for Multi-Label Text Classification,” in Advances in Information Retrieval. Springer, 2009, pp. 102–113. [41] M. Singh, E. Curran, and P. Cunningham, “Active learning for multi-label image annotation,” in Proceedings of the 19th Irish Conference on Artificial Intelligence and Cognitive Science, 2009, pp. 173–182. [42] S. Chakraborty, V. Balasubramanian, and S. Panchanathan, “Optimal Batch Selection for Active Learning in Multi-label Classification,” in Proceedings of the 19th ACM international conference on Multimedia (MM’s2011). tsdale, Arizona, United States of America: ACM, 2011, pp. 1413–1416. [43] C. W. Hung and H. T. Lin, “Multi-label active learning with auxiliary learner,” in Proceedings of the Asian Conference on Machine Learning. JMLR, 2011, pp. 315–330. [44] P. Wang, P. Zhang, and L. Guo, “Mining multi-label data streams using ensemble-based active learning,” in Proceedings of the 12th SIAM International Conference on Data Mining, 2012, pp. 1131–1140. [45] J. Tang, Z.-J. Zha, D. Tao, and T.-S. Chua, “Semantic-gap-oriented active learning for multilabel image annotation,” IEEE Transactions on Image Processing, vol. 21, no. 4, pp. 2354–2360, 2012. [46] X. Li and Y. Guo, “Active Learning with Multi-Label SVM Classification,” in Proceedings of the 23th International joint Conference on Artificial Intelligence. AAAI Press, 2013, pp. 1479–1485. [47] S. Huang and Z. Zhou, “Active query driven by uncertainty and diversity for incremental multi-label learning,” in Proceedings of 13th International Conference on Data Mining. IEEE, 2013, pp. 1079–1084. [48] J. Wu, V. Sheng, J. Zhang, P. Zhao, and Z. Cui, “Multi-label active learning for image classification,” in Proceedings of the International Conference on Image Processing. IEEE, 2014, pp. 5227–5231. [49] B. Zhang, Y. Wang, and F. Chen, “Multilabel image classification via high-order label correlation driven active learning,” IEEE Transactions on Image processing, vol. 23, no. 3, pp. 1430–144, 2014. [50] S. Huang, R. Jin, and Z. Zhou, “Active learning by querying informative and representative examples,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 10, pp. 1936–1949, 2014. [51] D. Vasisht and A. Damianou, “Active learning for sparse bayesian multilabel classification,” in Proceedings of the 20th SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2014, pp. 472–481. [52] S. Huang, S. Chen, and Z. Zhou, “Multi-label active learning: Query type matters,” in Proceedings of the 24th International Conference on Artificial Intelligence. AAI Press, 2015, pp. 946–952. [53] N. Hansen and A.Ostermeier, “Completely derandomized self-adaptation in evolution strategies,” Evolutionary computation, vol. 9, no. 2, pp. 159–195, 2001. [54] A. Auger and N. Hansen, “A restart CMA evolution strategy with increasing population size,” in Proceedings of the IEEE Congress on Evolutionary Computation, vol. 2. IEEE, 2005, pp. 1769–1776. [55] I. Kononenko, “Estimating attributes: analysis and extensions of RELIEF,” in Proceedings of the European Conference on Machine Learning (ECML’1994). Catania, Italy: Springer, 1994, pp. 171–182. [56] K. Deb, A. Pratap, S. Agarwal, and T. Meyarivan, “A fast and elitist multi-objective genetic algorithm: NSGA-II,” IEEE Transactions on Evolutionary Computation, vol. 6, no. 2, pp. 182–197, 2002.