Desarrollo de técnicas de codificación de audio basadas en modelos de señal paramétricos
- Nicolás Ruiz Reyes Director
- Manuel Rosa Zurera Director/a
Universidad de defensa: Universidad de Alcalá
Fecha de defensa: 27 de septiembre de 2006
- Alberto González Salvador Presidente/a
- Francisco López Ferreras Secretario/a
- José Javier López Monfort Vocal
- Antonio Pena Giménez Vocal
- Enrique Alexandre Cortizo Vocal
Tipo: Tesis
Resumen
Conforme los sucesivos estándares de codificación de audio ISO/MPEG, basados en codificación de forma de onda y por transformada, han ido avanzando, se ha llegado al límite de esta tecnología en relación a la reducción del régimen binario. Por esta causa, han ido surgiendo nuevos avances en relación a la modelización de la señal que permiten, con unos pocos parámetros, codificar componentes de la señal de audio. En este sentido es de uso común, actualmente, utilizar MP3-pro que se basa en la replicación de onda de las bajas frecuencias. El uso de modelos de señal paramétricos ha sido utilizado desde los años 90 como un herramienta de procesamiento de señales musicales. Esta tecnología se ha ido trasladando al campo del audio, al principio en codificadores mixtos basados en transformada que, en algunas circunstancias, se aprovechan de diferentes modelos para parametrizar las partes totales o ruidosas de la señal. Posteriormente, han ido surgiendo nuevas propuestas que utilizan al máximo estos modelos, dividiendo la señal de audio en tonos, transitorios y ruido, para parametrizar por completo la señal. Esta tesis se centra en la consecución de un codificador completamente paramétrico de audo que, en ningún momento, codifique la forma de onda de la señal. Para lograr este fin se han realizado avances en el estado del arte en relación al modelo sinusoidal, de transitorios y de ruido. Respecto al modelo sinosoidal se incluye en esta tesis un algoritmo iterativo basado en \emph (matching pursuits) que extrae el tono perceptualmente más importante en cada iteración. Además, el proceso se detiene cuando se han extraído todos los tonos perceptualmente importantes de la señal. Incluso se cuantifican las amplitudes de los tonos de forma transparente, con un número de bits variables usando principios psicoaúsicos y sin enviar información lateral. Para el modelo de transitorios se ha hecho un esfuerzo significativo con el fin de desarrollar un modelo paramétrico de baja complejidad que permita una adecuada caracterización de esta componente de la señal. En este sentido, se ha definido un modelo iterativo basado en \emph(matching pursuits) con un diccionario de funciones wavelet packets. También se ha introducido un modelo de mayor complejidad, y con mejores resultados, que incluye en el diccionario tanto funciones wavelet packets como exponenciales complejas. El residuo de los anteriores modelos se caracteriza típicamente como ruido, parametrizando su energía en tiempo y frecuencia. Para este modelo se ha hecho una revisión de las herramientas disponibles, habiendo utilizado un predictor lineal en frecuencia modificada logarítmicamente (adaptándose a las características del oido humano) para expresar la energía en frecuencia. Con todas estas herramientas se ha estructurado un codificador de audio completamente paramétrico. Se incluye en el funcionamiento del codificador un algoritmo de segmentación adaptativa del eje temporal muy flexible, así como los procesos de cuantificación de parámetros necesarios teniendo en cuenta siempre criterios perceptuales. Los estudios teóricos y los desarrollos efectuados han dado lugar a un codificador de alta calidad de señales CD-audio que emplea una media 16 Kbits/s (0,36 bits/muestra por canal), resultando una opción ventajosa a bajo régimen binario con respecto al estándar AAC actualmente establecido en el mercado.