Técnicas de estimación y reconstrucción para transmisión robusta de la voz codificada

  1. López Oller, Domingo
Dirigida por:
  1. Ángel Manuel Gómez García Director/a
  2. José Luis Pérez Córdoba Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 18 de septiembre de 2017

Tribunal:
  1. Antonio Miguel Peinado Herreros Presidente/a
  2. Mari Luz García Martínez Secretario/a
  3. Carmen García Mateo Vocal
  4. Damián Martínez Muñoz Vocal
  5. Ricardo Pau Marxer Piñón Vocal

Tipo: Tesis

Resumen

En los últimos años se ha producido un gran desarrollo y despliegue de las tecnologías de comunicación que posibilitan una conexión ubicua y permanente tanto a Internet como a la red de telefonía mundial. Unido a este desarrollo hay que destacar el incremento del número de aplicaciones y servicios que han modificado por completo la forma en la que nos comunicamos, transmitimos e intercambiamos ideas, sentimientos o información. Esto ha hecho que las comunicaciones actuales ya no están diferenciadas por voz o datos (texto, video, imágenes,...) sino que cada vez son más las aplicaciones que hacen uso de la voz y los datos de manera simultánea (como, por ejemplo, el caso de las videoconferencias). Este hecho, ligado a la expansión y desarrollo que ha experimentado Internet, basada en el protocolo IP, ha dado lugar a una convergencia de las redes de comunicación de voz tradicionales y las redes de comunicación de datos hacia éstas últimas, facilitando así tanto el acceso del usuario como la escalabilidad de las aplicaciones desarrolladas. No obstante, para proporcionar una buena calidad de servicio, es necesario que la comunicación de voz se lleve a cabo sin degradaciones y en tiempo real. Sin embargo, esta calidad está condicionada por el hecho de que las redes de comunicaciones digitales no están exentas de errores durante la transmisión, considerados estos como alteraciones o pérdidas en los paquetes de datos enviados, debidas a las condiciones de la red y el entorno donde se realiza la transmisión. El interés de esta tesis se centra en el estudio de la degradación producida en transmisiones sobre dos tipos de redes de diferente alcance: las redes inalámbricas de ámbito local y las redes IP. Por un lado, en las redes inalámbricas de ámbito local, la degradación produce una alteración en los paquetes recibidos causada por el efecto multitrayecto. Por otro lado, en las redes IP, la degradación conlleva la pérdida completa del paquete o paquetes enviados a consecuencia de la congestión y retardos en los nodos de la red. Para prevenir y/o mitigar esta degradación durante la transmisión, en esta tesis se desarrollarán técnicas que hacen más robusto al codec frente a errores en el canal y mejorar así, la calidad de la voz recuperada. Por un lado, para las transmisiones sobre redes de ámbito local, donde la comunicación de voz generalmente se realiza empleando la tecnología de telefonía digital inalámbrica o Digital Enhanced Cordless Telephony (DECT), se estudiará la degradación producida por el efecto multitrayecto. Como consecuencia de los obstáculos que hay entre emisor y receptor, el receptor puede recibir varias copias de la señal emitida a consecuencia de la reflexión de la onda portadora sobre los diferentes obstáculos. Este hecho provocará una serie de desvanecimientos que pueden modificar la codificación original del paquete enviado. Para mitigar esta degradación, en esta tesis se plantea el uso de la técnica soft-decision decoding con la que obtener una estimación de la componente del paquete modificado. Para ello, en la estimación se tendrá en cuenta tanto la componente recibida en el paquete como la probabilidad a posteriori obtenida a partir del comportamiento del canal. Por otro lado, para las transmisiones sobre redes basadas en el protocolo IP, se estudiará la degradación producida a consecuencia de la pérdida de paquetes. Esta degradación se produce como consecuencia de la congestión de los nodos de la red, dando lugar a una o varias pérdidas de manera consecutiva durante la transmisión. Las técnicas empleadas en la bibliografía para reducir este tipo de degradación pueden dividirse en dos clases dependiendo de si actúan antes de enviar el paquete (basadas en el emisor) o durante la el proceso de decodificación (basadas en el receptor). Entre las técnicas basadas en el emisor, se hará uso de códigos de corrección hacia delante o Forward Error Correction (FEC) con los que cada paquete incluye información redundante de paquetes anteriores, a una codificación inferior, y que se utilizan para recuperar paquete/s perdido/s durante la transmisión. Ahora bien, aunque su aplicación conllevará una ventaja notable en la calidad perceptual obtenida, también generará un incremento en la tasa de bits final que podría no ser soportado por el ancho de banda en canales limitados. Además, este cambio en el tamaño del paquete a enviar conlleva una incompatibilidad para poder utilizar el codec original aunque no se produzcan pérdidas durante la transmisión. Para solventar ambos inconvenientes del uso de los códigos FEC, en esta tesis se propone el uso de una técnica esteganográfica, particularizada al codec AMR. Como resultado, el código FEC oculto en el propio paquete mantiene la compatibilidad con el codec estándar y al mismo tiempo no reducirá significativamente la calidad perceptual en transmisiones sin pérdidas en el canal respecto al codec original. En cuanto a las técnicas basadas en el receptor, se proporcionarán diferentes esquemas de mitigación que tratan de recuperar los paquetes perdidos en una transmisión. Aunque los codecs de voz actuales tienen algoritmos para mitigar estas pérdidas, cuando la ráfaga de pérdidas es demasiado larga, estos algoritmos aplican un proceso de apagado para evitar generar artefactos en la reproducción de la voz. Para mitigar estas pérdidas, los diferentes esquemas propuestos en esta tesis tratan de proporcionar una estimación de los parámetros de voz necesarios para su reconstrucción. Estas estimaciones se obtienen a partir de unos vectores de sustitución, previamente calculados empleando un proceso de estimación de mínimo error cuadrático medio o Minimum Mean Square Error (MMSE), considerando la evolución de los parámetros previos a la pérdida. Estos parámetros de voz se obtendrán de acuerdo al modelo de predicción lineal o Linear Prediction Coding (LPC) y para su estimación será necesaria la obtención de los correspondientes diccionarios de cuantización. Sin embargo, uno de estos parámetros, la señal de excitación, no presenta una representación adecuada para realizar estimaciones como sí ocurre con los coeficientes LPC. Por este motivo, en esta tesis también se abordará el problema de la representación y la generación de diccionarios de cuantización para obtener estimaciones de la señal de excitación eficaces. Por un lado, dada la dificultad para obtener un diccionario de cuantización adecuado para la señal de excitación, se plantearán diferentes métodos de cuantización que modifican los procesos de centro y celda óptimos del conocido algoritmo de cuantización vectorial Linde-Buzo-Gray (LBG). Sin embargo, el alto coste en recursos para obtener diccionarios representativos hace que se presenten varios esquemas de mitigación que tratan de mejorar la estimación de la señal de excitación. Uno de estos esquemas consiste en el uso del filtro adaptativo basado en corrección recursiva o Recursive Least Squares (RLS) para mejorar la estimación de las primeras tramas perdidas frente a las obtenidas por el vector de sustitución. El motivo es que el error de cuantización a la hora de obtener los índices de cuantización puede provocar que las primeras estimaciones del vector de sustitución pudieran ser peores que las propuestas por el propio algoritmo PLC. La nueva propuesta permitirá aprovechar mejor la correlación con las tramas precedentes a la pérdida de manera similar a un filtro LTP en los codecs basados en el paradigma CELP. Por otro lado, se planteará una nueva representación de la señal de excitación basada en la transformada wavelet Haar. Esta transformada wavelet permite dividir una señal en componentes de menor tamaño (la mitad) que, tras ser aplicada sucesivamente, puede obtener una descomposición en árbol balanceado o no balanceado. La ventaja de esta nueva representación es que se puede mejorar la calidad de los diccionarios, ya que se reduce el error de cuantización con particiones más pequeñas. Al mismo tiempo, permitirá realizar una minimización de error sobre cada partición de manera independiente y mejorar así la calidad de la voz recuperada. Por último, se planteará un esquema que combina las técnicas de mitigación y prevención de errores con el objetivo de proporcionar un esquema robusto frente a errores y que permita aprovechar las ventajas de ambos enfoques: La recuperación de los paquetes perdidos y evitar el error de propagación que se genera en codecs que tienen una dependencia inter-trama durante el proceso de síntesis como es el caso del codec AMR. Para finalizar, cabe indicar que las técnicas propuestas han sido evaluadas sobre varios codecs empleados en las transmisiones de ámbito local con el estándar DECT (G.726 y G.722) y sobre redes IP (AMR e iLBC), algunos de los cuales incluyen su propio algoritmo de mitigación de errores o Packet Loss Concealment (PLC). Para el proceso de entrenamiento y tests se han utilizado las bases de datos de voz TIMIT y NTT para el desarrollo del test de calidad objetivo (PESQ) y la base de datos Albayzin para el test subjetivo (MUSHRA). Para analizar el rendimiento de las técnicas propuestas, se ha simulado el comportamiento del efecto multitrayecto y la pérdida de paquetes con un modelo de canal donde se aplica diferente relación señal ruido (SNR) en el caso de redes de ámbito local y diferentes tasas de pérdidas y longitudes promedio de ráfaga en el caso de las redes basadas en el protocolo IP. En estas pruebas se ha podido observar el incremento de calidad perceptual que ofrecen las técnicas propuestas en esta tesis frente a la obtenida por el algoritmo PLC del codec utilizado en las pruebas. De este modo, las técnicas propuestas en esta tesis han demostrado ser más robustas frente a la degradación producida en el canal y mejorar así la calidad de servicio de las transmisiones de voz en tiempo real.