Algoritmos para la clasificación multinstancia

  1. Sánchez Tarragó, Dánel
Dirigida por:
  1. Francisco Herrera Triguero Director/a
  2. Rafael Bello Pérez Codirector/a
  3. Chris Cornelis Codirector/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 25 de junio de 2014

Tribunal:
  1. Antonio González Muñoz Presidente/a
  2. Jorge Casillas Barranquero Secretario/a
  3. Sebastián Ventura Soto Vocal
  4. Alberto Fernández Hilario Vocal
  5. César Hervás Martínez Vocal

Tipo: Tesis

Resumen

Dentro del campo de estudio del aprendizaje automático, la clasificación multinstancia tiene como objetivo construir, a partir de un conjunto de ejemplos, un modelo matemático que permita clasificar objetos descritos por múltiples vectores de atributos. En la tesis se realiza una profunda revisión bibliográfica que contribuye a organizar la literatura dispersa y sistematizar el conocimiento existente sobre clasificación multinstancia, y se proponen dos soluciones para sendos problemas identificados en el campo de la clasificación multinstancia. Uno de los problemas identificados es el problema de las clases desbalanceadas, el cual ocurre cuando hay mucha diferencia en el tamaño de las clases y provoca que el modelo de aprendizaje inducido a partir de los datos no represente adecuadamente el concepto que se pretende aprender y consecuentemente incurra en muchos errores de clasificación. En la tesis se propone un nuevo método general basado en técnicas de muestreo para enfrentar este problema en la clasificación multinstancia. El algoritmo propuesto, bautizado como MISMOTE, consiste a groso modo en modificar la distribución de los datos de entrenamiento, insertando ejemplos sintéticos de objetos multinstancia en la clase minoritaria, para equilibrar el balance de las clases. Las pruebas experimentales validadas por métodos estadísticos mostraron que la solución propuesta mejora significativamente la calidad de la clasificación y es competitiva con otras soluciones existentes en la literatura. El otro problema identificado es que aún no han sido adaptados al enfoque del aprendizaje multinstancia algunos algoritmos de clasificación tradicionales orientados específicamente a determinados dominios de aplicación. En la tesis se propone un nuevo algoritmo de clasificación multinstancia que permite aplicar el clasificador de Rocchio en el escenario multinstancia. El clasificador de Rocchio es muy usado para la recuperación y clasificación de documentos textuales en aplicaciones on-line. El algoritmo propuesto, bautizado como MIRocchio, implementa una nueva hipótesis multinstancia introducida en la tesis, la cual está basada en proporción de instancias positivas. La validez del algoritmo se comprueba experimentalmente en el problema de la recomendación de páginas web índices, siendo capaz de mejorar el desempeño de los clasificadores multinstancia del estado del arte en este dominio de aplicación.