Análisis estadístico de distintas técnicas de inteligencia artificial en detección de intrusos

Tribak, Hind

Análisis estadístico de distintas técnicas de inteligencia artificial en detección de intrusos

Tribak, Hind

Dirigida por:

Ignacio Rojas Ruiz Director/a
Héctor Pomares Cintas Codirector/a
Olga Valenzuela Cansino Codirector/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 06 de febrero de 2012

Tribunal:

Buenaventura Clares Rodríguez Presidente/a
Manuel Rodríguez Álvarez Secretario/a
Antonio Jesús Rivera Rivas Vocal
Andres Ortiz García Vocal
Consolación Gil Montoya Vocal

Tipo: Tesis

Teseo: 320697 DIALNET DIGIBUG editor

Resumen

Desde su invención hasta nuestros días, el número de ordenadores ha ido creciendo hasta consolidarse como un instrumento casi imprescindible en la vida cotidiana del hombre. Su versatilidad, potencia de cálculo y cada vez más fácil manejo hacen de ellos una herramienta muy importante en gran variedad de actividades, desde la científica a la lúdica. Con la posibilidad de interconectar múltiples ordenadores formando redes, surgieron nuevos retos y aplicaciones. La red ARPANET, creada por el gobierno estadounidense en 1969 para actividades de desarrollo y defensa, sería la precursora de la que hoy conocemos como Internet. En aquel entorno, la seguridad era mínima. Se trataba de una red compuesta por una pequeña comunidad cuyos miembros eran de confianza. La mayoría de los datos que se intercambiaban no eran confidenciales, y muchos usuarios se conocían. La ARPANET original evolucionó hacia Internet. Internet se basó en la idea de que habría múltiples redes independientes, de diseño casi arbitrario, empezando por ARPANET como la red pionera de conmutación de paquetes, pero que pronto incluiría redes de paquetes por satélite, redes de paquetes por radio y otros tipos de red. Internet como ahora la conocemos encierra una idea técnica clave, la de arquitectura abierta de trabajo en red. Internet ha supuesto una revolución sin precedentes en el mundo de la informática y de las comunicaciones. Es difícil imaginarse hoy algún banco, hospital, o gran superficie comercial en un país desarrollado, que no mantenga los datos de sus clientes o hagan sus transacciones de forma electrónica. Hoy en día los bancos hacen uso de redes para efectuar sus operaciones financieras, los hospitales tienen los historiales de sus pacientes en bases de datos, y muchos comercios están presentes en Internet, de forma que cualquier usuario del planeta puede tanto escoger el producto que desea como pagarlo a través de la red. Los datos que manejan este tipo de empresas deben mantenerse a salvo de cualquier intruso a toda costa. La seguridad en este tipo de empresas tiene una importancia crítica. La información es el activo más importante en los negocios actuales, de hecho los ciber-ataques a las grandes compañías siguen siendo un gran problema en el mundo empresarial, ya que llegan a causarles gastos de millones de dólares al año para luchar contra las amenazas de la red. Así pues hoy en día salvaguardar la información en la red y tener una buena política de seguridad se vuelve primordial y de suma importancia teniendo en cuenta que los ataques son difíciles de prevenir con los cortafuegos, las políticas de seguridad, u otros mecanismos, porque el software de aplicación está cambiando a un ritmo rápido, y este rápido ritmo a menudo conduce a un software que contiene fallos desconocidos o errores. La seguridad informática consiste en asegurar que los recursos tales como las metodologías, planes, políticas, documentos, programas o dispositivos físicos, encaminados a lograr que los recursos de cómputo disponibles en una organización o ambiente dado, sean accedidos única y exclusivamente por quienes tienen la autorización para hacerlo y dentro de los límites de su autorización. Para ello disponemos de varias herramientas que nos ayudan a mantener la seguridad de una organización red o recurso cualquiera, entre estas herramientas están los llamados sistemas de detección de intrusos. Los sistemas de intrusos basados en red, los cuales monitorizan el tráfico de una red, se clasifican dependiendo del tipo de análisis que lleven a cabo en dos tipos. Por un lado están los de uso indebido que requieren de un sistema de apoyo, como es una base de datos, éstos necesitan de un mantenimiento regular, como son las actualizaciones periódicas, ejemplo de ello son los antivirus. Por otra parte nos encontramos con los llamados sistemas basados en anomalías los cuales no cuentan con ningún soporte, puesto que aprenden a modelar, gracias a un algoritmo de inteligencia artificial, el comportamiento normal del sistema. Éstos algoritmos les permiten aprender y por ello perfilar una conducta de actividad normal y todo lo que se desvíe de esa conducta es reportado como una anomalía o intrusión. Los sistemas de detección de intrusos basados en anomalías no están tan desarrollados por los fabricantes debido a su baja fiabilidad frente a los sistemas de detección basados en el uso indebido. En esta tesis se pretende realizar una comparativa estadística global de distintos algoritmos de Inteligencia Artificial que se aplican en detección de intrusos y establecer qué algoritmo es más ventajoso en determinadas condiciones frente a otros, siendo estas condiciones el tipo de discretización, y la selección de atributos. Básicamente analizaremos estas condiciones, las cuales serán factores que influirán en el acierto o error de clasificación del modelo y en su tiempo de construcción. El criterio que se ha seguido para seleccionar los distintos algoritmos de aprendizaje es el buen resultado que han dado en otros ámbitos de estudio. Estos algoritmos se entrenaran y se evaluarán utilizando el conjunto de datos NSL [NSL09], el cual es una base de datos con miles de patrones de firmas de ataques así como de conexiones normales, y a la vez es una mejora de los datos del concurso KDD cup¿99[Kdd99]. En KDD-99 se utilizo una versión reducida de la amplia variedad de intrusiones militares simuladas en un entorno de red, proporcionadas por DARPA Intrusion Detection Program Evaluation en 1998. En este conjunto de datos cada registro de conexión está compuesto de 42 atributos, lo que supone unos 100 bytes por registro. Para llevar a cabo este estudio se ha utilizado la selección de atributos, proceso que consiste en seleccionar a partir de los datos de entrada un subconjunto óptimo de características de una base de datos para reducir su dimensionalidad, eliminar ruido y mejorar el desempeño de un algoritmo de aprendizaje. Sería muy interesante el estudiar si un modelo sigue siendo bueno o desmejora si se entrena y evalúa con pocos atributos reduciendo así la dimensionalidad del problema y manteniendo las prestaciones del algoritmo. Para ello someteremos a los datos a diferentes técnicas de selección de atributos que se tratarán más adelante. Además de la selección de atributos se ha utilizado la discretización que es de especial importancia en Inteligencia Artificial, pues permite que muchos algoritmos de aprendizaje ideados para funcionar con atributos nominales o categóricos puedan también utilizarse con conjuntos de datos que incluyen valores numéricos, algo esencial en la resolución de problemas reales. Nuestro conjunto de datos como se verá más adelante cuenta con que la mayoría de los atributos es de tipo continuo, y algunos algoritmos de aprendizaje operan exclusivamente con espacios discretos. Se llevará a cabo dos tipos de discretizaciones distintas, una supervisada y otra no supervisada que serán explicadas más adelante. Como pasaba con la selección de atributos gracias a la discretización estudiaremos si las prestaciones de un clasificador mejoran o desmejoran así como cual de ambos métodos de discretización resulta ser mejor que otro. Tomando la discretización, el filtro y el tipo de algoritmo como factores que influyen en el desempeño de un modelo basado en anomalías, analizaremos el comportamiento de este modelo, acierto en clasificación y tiempo de construcción, desde tres puntos de vista distintos: sistema de clasificación binaria (ataque/no-ataque), sistema de clasificación en 5 categorías (DoS, Probe, R2L, U2R), sistema de clasificación a nivel de ataque (veinte ataques diferentes). Esta tesis se va a organizar de la siguiente manera, en el capítulo 2 se estudiará la seguridad informática, los elementos que la componen así como las amenazas y clasificación de los ataques informáticos. En el capítulo 3 se tratarán los sistemas de detección de intrusos y se expondrá los tipos que existen y nos centraremos en la estrategia de análisis en las que se basan. En el capítulo 4 se expondrán los algoritmos de aprendizaje inteligente más usuales y frecuentes, utilizados y referenciados en la bibliografía. Se explicarán las diferentes técnicas o algoritmos que se aplicarán en nuestro estudio experimental como son los clasificadores bayesianos, modelos de Markov, máquinas de soporte vectorial, lógica difusa, árboles de decisión etc..y al final de cada apartado se comentará un breve estado del arte de la técnica en cuestión y su aplicación a los sistemas de detección de intrusos. Los dos últimos apartados de este capítulo tratarán sobre las diferentes técnicas de discretización y de selección de atributos escogidas para el procedimiento experimental. En el capítulo 5 se explicará el procedimiento experimental que se ha llevado a cabo, así como el conjunto de datos utilizado y los 3 casos o perspectivas de estudio a las que se ha sido sometido este conjunto de datos así como los algoritmos y sus variantes que se utilizarán para su evaluación. Por último en el capítulo 6 partiendo de las tablas que se construirán en la fase experimental se realizará el estudio estadístico ANOVA y se ofrecerán las conclusiones obtenidas. En los apéndices de esta tesis se podrá encontrar las matrices de confusión de cada clasificador así como las tablas obtenidas con los resultados como son, el tiempo de construcción del modelo y el acierto global del clasificador así como otros aciertos dependiendo del caso de estudio.