Técnicas de reconocimiento robusto de la voz basadas en el pitch

Morales Cordovilla, Juan Andrés

Técnicas de reconocimiento robusto de la voz basadas en el pitch

Morales Cordovilla, Juan Andrés

Dirigida por:

Antonio Miguel Peinado Herreros Director/a
Victoria Eugenia Sánchez Calle Codirector/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 05 de septiembre de 2011

Tribunal:

Antonio José Rubio Ayuso Presidente/a
Luis Arenas-Carmona Secretario/a
Nicolás Ruiz Reyes Vocal
Jonathan Barker Vocal
Carmen García Mateo Vocal

Tipo: Tesis

Teseo: 310615 DIALNET DIGIBUG editor

Resumen

Esta Tesis propone y hace un estudio de técnicas que emplean de una forma u otra el pitch, el cual será entendido como la frecuencia fundamental en cada instante de tiempo de la voz, para transcribirla o reconocerla de forma robusta en condiciones de ruido. No pretende buscar un modo robusto de extraer el pitch, sino y sobre todo, una vez conocido este, ver como emplearlo de manera adecuada para robustecer el reconocimiento. Se hará un estudio bibliográfico de las técnicas que han empleado el pitch intentando una primera clasificación de las mismas. Después, se propondrán tres técnicas de reconocimiento robusto basadas en el pitch comparándolas con otras similares. Estas técnicas son: ventanas asimétricas que se aplican sobre la autocorrelación de una señal para extraer un espectro menos afectado por el ruido, autocorrelación cribada y (promediada) que es capaz de estimar completamente la autocorrelación limpia de una señal periódica empleando el pitch bajo ciertas suposiciones de ruido, y estima del ruido basada en el pitch que es capaz de estimar ruidos no estacionarios a partir del pitch mediante lo que se denomina estima túnel y que se empleará sobre un reconocedor de MD (Missing Data) basado en marginalización. Aparte de esto, se intentarán mostrar los resultados límite en el reconocimiento de las técnicas basadas en el pitch y que emplean la mínima información posible sobre el ruido. Para ello se identificarán los mecanismos básicos de reconocimiento robusto de los sonidos sonoros empleados por estas técnicas, se verá cuales son los óptimos (mostrando equivalencias) y se mostrarán experimentalmente esos resultados límite a partir del uso de máscaras oráculo de MD y de valores de pitch ideales. Concluiremos que la técnica estima del ruido basada en el pitch se acerca idealmente a los límites del reconocimiento basado en el pitch (suponiendo pitch ideal) pero que queda (aunque no por una excesiva diferencia) lejos de los límites de las máscaras oráculo. Finalmente, se dará un pequeño bosquejo de como podría abordarse el reconocimiento cuando no hay pitch (habla susurrante) reciclando ciertas ideas presentadas en la Tesis.