Codificación de audio basada en la selección de la mejor base de funciones wavelet ortonormales

RUIZ REYES, NICOLÁS

Codificación de audio basada en la selección de la mejor base de funciones wavelet ortonormales

RUIZ REYES, NICOLÁS

Dirigida por:

Manuel Rosa Zurera Director/a

Universidad de defensa: Universidad de Alcalá

Fecha de defensa: 20 de julio de 2001

Tribunal:

Luis Vergara Domínguez Presidente/a
Saturnino Maldonado Bascón Secretario/a
Antonio José Albiol Colomer Vocal
Francisco López Ferreras Vocal
Antonio Mínguez Olivares Vocal

Tipo: Tesis

Teseo: 85494 DIALNET

Resumen

En paralelo a la definición de los sucesivos estándares de codificación de audio ISO/MPEG, se han propueso diversos algoritmos de codificación de audio que hacen uso de descomposiciones wavelet-packet como herramienta para el análisis/síntesis de la señal. Los primeros resultados obtenidos con estos algoritmos de codificación fueron bastante esperanzadores, debido fundamentalmente a la gran compactación de energía y a la buena localización tiempo-frecuencia que se consigue con la transformada wavelet. Los resultados más prometedores corresponden a esquemas de codificación que realizan un análisis wavelet adaptado. En esta tesis doctoral se propone un nuevo esquema de codificación perceptual de audio basado en la utilización de estructuras de análisis/síntesis WP adaptativas. El codificador propuesto incorpora un algoritmo de segmentación adaptativa del eje temporal basado en el cálculo de distancias entre pares tiempo-frecuencia. La utilización de estas estructuras adaptativas exige procesar los segmentos resulantes de forma independiente, para lo cual, se recurre a dos técnicas diferentes de extensión artificial de señales: extensión periódica y extensión simétrica. En ambos casos, se aportan soluciones distintas para eliminar el efecto de bloque debido a la cuantificación de las señales subbandas. Para realizar la descomposición adaptativa de cada segmento de audio, se define una nueva función de coste perceptual que, utilizada en conjunción con un algoritmo de búsqueda de la mejor base wavelet-packet, consigue aumentar la tasa de compresión en relación a otras funciones de coste y otros esquemas de descomposición WP propuestos en la literatura. Además, el esquema de codificación de audio que se propone garantiza alta calidad perceptual para filtros ortonormales que generan funciones wavelet de cualquier soporte compacto, gracias a la utilización de un algoritmo de asignación de bits que tiene en cuenta las respuestas de amplitud de las distintas ramas del banco de filtros de síntesis. Finalmente, el esquema de codificación de audio se completa con un nuevo algoritmo de codificación entrópica adaptado a los estadísticos de la señal de audio en el dominio wavelet. Se emplea como base un codificador de Huffman (pudiendo utilizarse también uno aritmético), el cual opera en base a las probabilidades calculadas cuando las señales subbandas se modelan mediante funciones laplacianas. Los estudios teóricos y los desarrollos efectuados han dado lugar a un codificador transparente de señales CD-audio que emplea una media de bits/muestra por canal, resultando un interesante competidor del estándar MP3 actualmente establecido en el mercado.