Reconocimiento robusto de voz con datos perdidos o inciertos
- González López, José Andrés
- Antonio Miguel Peinado Herreros Zuzendaria
- Ángel Manuel Gómez García Zuzendarikidea
Defentsa unibertsitatea: Universidad de Granada
Fecha de defensa: 2013(e)ko otsaila-(a)k 25
- Antonio José Rubio Ayuso Presidentea
- José Luis Pérez Córdoba Idazkaria
- P. Vera-Candeas Kidea
- Alfonso Ortega Giménez Kidea
- Phil Green Kidea
Mota: Tesia
Laburpena
De entre los problemas que aún se encuentran abiertos en el campo del reconocimiento automático del habla, uno de los que suscitan mayor interés entre la comunidad científica es el robustecimiento de estos sistemas frente al ruido acústico. Es bien conocido que, en presencia de ruido, el rendimiento de estos sistemas se deteriora hasta niveles en los que su uso resulta ineficaz. A fin de mitigar este problema, en este trabajo se desarrollan un conjunto de técnicas que permiten incrementar la robustez de estos sistemas en condiciones ruidosas. Para alcanzar esta meta, en esta tesis se adopta un marco de trabajo en el que las características de voz usadas por el reconocedor son procesadas para mitigar la degradación producida por el ruido. Bajo este marco genérico, a lo largo de este trabajo proponemos varias técnicas que, usando estimación bayesiana MMSE e información a priori sobre la voz y/o el ruido, permiten obtener unas características más limpias. En primer lugar, se proponen un conjunto de técnicas que, a partir de datos estéreo, derivan una serie de transformaciones que se aplican a la voz ruidosa para compensarla. Estos datos estéreo consisten en grabaciones de voz donde se cuenta con señales de voz limpia y sus correspondientes versiones ruidosas. Usando estas grabaciones, las técnicas propuestas estiman un conjunto de parámetros que se emplean posteriormente para realzar las características extraídas de la voz ruidosa. A fin de eludir la necesidad de datos estéreo de las técnicas anteriores, en segundo lugar se proponen un conjunto de técnicas de reconstrucción basadas en un modelo de enmascaramiento de las características espectrales de voz. De acuerdo a este modelo, el ruido acústico enmascara (distorsiona) ciertas características del espectro de la voz dejando otras intactas. Para recuperarse de esta pérdida de información, se proponen dos técnicas alternativas. La primera de ellas, denominada TGI (Truncated-Gaussian based Imputation), estima el valor de las regiones enmascaradas del espectro supuesto que se conoce por adelantado la clasificación entre regiones limpias y ruidosas de la señal observada. La segunda técnica, conocida como MMSR (Masking-Model based Spectral Reconstruction), emplea modelos a priori de voz y ruido para llevar a cabo esta tarea. Como se verá, la reconstrucción obtenida por MMSR se reduce a una combinación lineal entre el espectro original y un espectro estimado en el que se consideran los posibles efectos del enmascaramiento del ruido. Basándonos en la formulación desarrollada para la técnica MMSR, también se propondrá un algoritmo iterativo para la estimación del modelo de ruido empleado por esta técnica. Este algoritmo permite ajustar los parámetros de un modelo de mezcla de gaussianas al ruido acústico presente en cada elocución que se reconoce, consiguiendo de esta forma modelar las características variantes de este tipo de ruidos. Asimismo, de esta formulación también se derivará un algoritmo para la estimación de las máscaras empleadas para identificar las regiones limpias y ruidosas del espectro de voz. Estas máscaras pueden emplearse por TGI y otras técnicas similares. Finalmente, en esta tesis también se exploran otros dos cuestiones importantes para la compensación de características: el modelado temporal de la voz y el tratamiento de la incertidumbre. En relación a la primera cuestión, se proponen dos alternativas para representar la evolución temporal de la voz en los modelos usados por las técnicas de compensación propuestas: modelado de segmentos de voz y modelado basado en modelos ocultos de Markov. En cuanto a la segunda cuestión, se investiga el cómputo de medidas que describan la incertidumbre residual del proceso de compensación de características de voz, así como su posterior uso en el reconocedor.