Reducción de datos basada en selección evolutiva de instancias para minería de datos

Cano de Amo, José Ramón

Reducción de datos basada en selección evolutiva de instancias para minería de datos

Cano de Amo, José Ramón

Dirigida por:

Manuel Lozano Márquez Director/a
Francisco Herrera Triguero Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 25 de octubre de 2004

Tribunal:

Josep Maria Garrell Guiu Presidente/a
Juan Carlos Cubero Talavera Secretario/a
José Cristobal Riquelme Santos Vocal
Pedro Larrañaga Múgica Vocal
José Hernández Orallo Vocal

Tipo: Tesis

Teseo: 124329 DIALNET

Resumen

El objeto de estudio de esta tesis es analizar la selección de instancias mediante algoritmos evolutivos para preprocesar un conjunto de datos teniendo como finalidad la reducción de datos, La reducción a través de la selección de instancias tiene como objetivos el clasificar con el vecino más cercano y la extracción de modelos descriptivos y predictivos a partir de los subconjuntos seleccionados. La tesis se estructura de la siguiente forma. En el primer capítulo se estudia el proceso de descubrimiento de información en bases de datos. Se dirige la atención a la etapa de preprocesamiento, y dentro de ésta en la reducción de datos y selección de instancias. Se estudia así mismo el empleo de algoritmos evolutivos en la extracción de conocimiento en la literatura. El segundo capítulo analiza diferentes técnicas de selección de instancias evolutivas y no evolutivas en conjuntos de tamaño pequeño, para clasificar con el vecino más cercano y para extraer modelos predictivos. De entre los algoritmos analizados, el algoritmo evolutivo CHC se destaca frente al resto. En el capítulo 3 se analiza la selección de instancias en conjuntos de tamaño grande, con el problema de escalado que supone. Para solventarlo, se propone la combinación de selección evolutiva y estratificación para clasificar con el vecino más cercano, ofreciéndose los mejores resultados. El último capítulo analiza la combinación sugerida en el capítulo anterior desde la perspectiva de la extracción de modelos predictivos y descriptivos para el descubrimiento de subgrupos. Dicha combinación proporciona los modelos con mayores índices de precisión e interpretabilidad y aquellos compuestos por reglas más novedosas, atípicas, etc.