Visual vocabularies for category-level object recognition

López Sastre, Roberto Javier

Visual vocabularies for category-level object recognition

López Sastre, Roberto Javier

Dirigida por:

Saturnino Maldonado Bascón Director/a

Universidad de defensa: Universidad de Alcalá

Fecha de defensa: 18 de mayo de 2010

Tribunal:

Francisco López Ferreras Presidente/a
Manuel Rosa Zurera Secretario/a
Nicolás Ruiz Reyes Vocal
Antonio Fernández Caballero Vocal
Alessandro Foi Vocal

Tipo: Tesis

Teseo: 293179 DIALNET e_Buah editor

Resumen

Esta tesis se centra en el estudio de vocabularios visuales para el reconocimiento de categorías de objetos en imágenes. El objetivo que perseguimos no es solo que estos vocabularios sean más compactos y discriminativos, sino que también permitan caracterizar la información semántica presente en las imágenes. Así, la tesis comienza describiendo una nueva propuesta que garantiza la obtención de vocabularios en los que las palabras visuales son representativas para cada una de las clases. La metodología diseñada se basa en la maximización de un nuevo criterio para medir la precisión de los clusters. Además, la tesis describe un algoritmo, basado en las técnicas conocidas como correlation clustering, que consigue reducir el tamaño del vocabulario, a la vez que lo hace m´as discriminativo. La tesis también aborda la utilización de algoritmos de clustering aggregation para de nuevo conseguir vocabularios visuales que sean semánticos y que mejoren la eficiencia de los sistemas de categorización de objetos. La nueva propuesta incorpora en el proceso de construcción del vocabulario tanto información local como de apariencia de los descriptores que han sido extraídos de las imágenes de entrenamiento. El problema de la cuantificación eficiente de vectores en espacios de altas dimensiones, para por ejemplo la obtención de palabras visuales, es otra de las líneas de trabajo de esta tesis. Se presenta una versión acelerada del algoritmo de clustering aglomerativo conocido como clustering de vecinos recíprocos más cercanos (RNN). El algoritmo propuesto utiliza el paradigma de la búsqueda por proyección para acelerar la construcción de las cadenas de vecinos más cercanos que se utilizan de forma intensiva en el algoritmo RNN. Finalmente, destacar que la tesis también se enfrenta al problema del diseño y construcción de una base de datos de imágenes para la evaluación y comparación de algoritmos de reconocimiento y detección de categorías de objetos. La nueva base de datos se denomina Image Collection of Annotated Real-world Objects (ICARO).