Análisis y clasificación automática de audio para el diseño de un sistema de segmentación y codificación inteligente de audio

  1. MUÑOZ EXPÓSITO, JOSE ENRIQUE
Dirigida por:
  1. Nicolás Ruiz Reyes Director
  2. Sebastián García Galán Codirector

Universidad de defensa: Universidad de Jaén

Fecha de defensa: 29 de abril de 2009

Tribunal:
  1. Gregorio Fernández Fernández Presidente/a
  2. P. Vera-Candeas Secretario
  3. Juan Ramón Velasco Pérez Vocal
  4. Luis Magdalena Layos Vocal
  5. Joaquín Cañada Bago Vocal
Departamento:
  1. INGENIERÍA DE TELECOMUNICACIÓN

Tipo: Tesis

Teseo: 291261 DIALNET

Resumen

El crecimiento exponencial de Internet, así como los últimos avances en tecnologías de redes y de compresión de datos, han hecho posible el acceso fácil a grandes cantidades de información. Es más que probable que en un futuro cercano los servicios de música disponibles "on line" superen en importancia a la acostumbrada distribución de audio almacenado en soportes físicos, como los discos compactos o los DVDs. Actualmente, la exploración y administración de datos de audio está basada en breves informaciones textuales añadidas manualmente a los ficheros, lo que supone el empleo de importantes recursos temporales y humanos. Más aún, esta información a menudo resulta incompleta, y en ocasiones ni siquiera está disponible. Las técnicas de Análisis del Contenido tienen como objetivo extraer automáticamente de las señales información acerca de su contenido, y han hecho posible un gran número de nuevas aplicaciones, como clasificación y recuperación de información basada en el contenido, segmentación, tratamiento inteligente de señales, separación ciega de fuentes, etc. La presente tesis aborda el diseño, implementación y evaluación de un sistema de análisis de contenido de audio y su aplicación a la clasificación automática de fuentes para el diseño de un sistema de segmentación y codificación inteligente de audio. Las aplicaciones de un sistema de clasificación automática de ficheros de audio incluyen, por ejemplo, organización automática de archivos de sonido, tratamiento inteligente de señales, ecualización automática, asignación inteligente de ancho de banda, codificación inteligente de audio, segmentación de flujos de audio o tratamiento de señales de video basado en su banda sonora. De todas estas aplicaciones, nuestro interés se centrará principalmente en la segmentación de flujos de audio y su aplicación a la codificación inteligente de audio y al tratamiento inteligente de señales. El sistema a desarrollar se basa en las técnicas proporcionadas por el campo del Reconocimiento de Patrones. De cada señal a clasificar se extrae una serie de características, las cuales son tomadas como elementos del vector de características asociado a dicha señal. De esta forma, cada señal está representada por su vector asociado en el espacio de características, de tantas dimensiones como sea el número de características extraídas. Estos vectores se emplean para entrenar a un clasificador, el cual infiere unas reglas de decisión que aplicará para asignar una clase determinada a un vector entrante de naturaleza desconocida. En previas investigaciones relacionadas se han propuesto numerosas combinaciones de características a extraer (de timbre, perceptivas, estadísticas) y clasificadores (estadísticos paramétricos, estadísticos no paramétricos, neuronales, etc.) para llevar a cabo detección de audio. Sin embargo, determinados aspectos inherentes al proceso de diseño de un sistema de clasificación automática de audio han merecido sólo escasa atención hasta el momento. Estos son: creación de una taxonomía adecuada, estudio de los problemas que conlleva un elevado número de dimensiones en el espacio de características, complejidad de las características, tamaño de las ventanas, estudio del diferente grado de adecuación de las características en función de las clases o géneros a clasificar. Parte de la motivación de la presente tesis ha sido investigar la influencia de algunas de estas cuestiones en la realización del sistema. Se examinarán características ya propuestas y se prestará especial atención al diseño de nuevas características, menos complejas y con mayor capacidad de discriminación que las tradicionalmente utilizadas. Entre las características que se revisarán, se encuentran características ya conocidas y utilizadas en sistemas previos de clasificación de audio o de detección del habla, como el centroide espectral, el roll off, el flujo espectral, la envolvente temporal o los MFCCs (Mel Frequency Cepstral Coefficients). Para la etapa de toma de decisión, se evaluarán clasificadores clásicos como el clasificador estadístico paramétrico Modelo de Mezclas Gaussianas (Gaussian Mixture Model, GMM) y el clasificador estadístico no paramétrico k-Vecinos más Próximos (k-Nearest Neighbor, k-NN), así como clasificadores más modernos, como los basados en Redes Neuronales (Neural Networks, NN), Máquinas Soporte de Vectores (Support Vector Machines, SVM), Sistemas Borrosos (Fuzzy Systems, FS) y sus derivados, etc. El diseño del conjunto de características, así como los experimentos de evaluación de las mismas y de los clasificadores se realizará usando MATLAB. La última fase de la tesis consistirá en la implementación de una aplicación prototipo para la codificación de fuentes de audio en formato WAV. El programa debería ser capaz de extraer las características en tiempo real y de diferenciar música y habla con una precisión elevada (próxima al 90%).