Signal decomposition models for real-time informed music source separation

MUÑOZ MONTORO, ANTONIO JESÚS

Signal decomposition models for real-time informed music source separation

MUÑOZ MONTORO, ANTONIO JESÚS

unter der Leitung von:

Pedro Vera Candeas Doktorvater/Doktormutter
Julio Jose Carabias Orti Co-Doktorvater/Doktormutter

Universität der Verteidigung: Universidad de Jaén

Fecha de defensa: 29 von April von 2020

Gericht:

Isabel Barbancho Pérez Präsident/in
Francisco Jesús Cañadas Quesada Sekretär
Archontis Politis Vocal

Art: Dissertation

Teseo: 647453 DIALNET

Zusammenfassung

Esta tesis estudia diferentes modelos de descomposición de señal para la separación de fuentes de audio. Se centra principalmente en dos escenarios de aplicación. En primer lugar, se desarrollan algoritmos que pueden ser implementados en tiempo real en dispositivos portátiles. En este sentido, proponemos diferentes sistemas monocanal y multicanal basados en Non-Negative Matrix Factorization (NMF) e informados por la partitura musical. Por otra parte, hemos considerado un escenario offline con una aplicabilidad real en el que no hay restricciones computacionales. En este caso, se proponen métodos que mejoran considerablemente la calidad de audio de las separaciones multicanal mediante la modelización de la información de fase. Así, proponemos algoritmos para la separación de voz cantada y la localización de fuentes. Finalmente, se exploran diferentes algoritmos de descomposición basados en el alineamiento de partitura, con el objetivo de desarrollar un sistema capaz de buscar una partitura musical en una base de datos. This thesis studies several signal decomposition model for audio source separation. It is mainly focus on two different application scenarios. First, we develop algorithms that can be implemented in real time on handheld devices. In this regard, we propose different single-channel and multichannel systems based on based on Non-Negative Matrix Factorization (NMF) and informed by music score. On the other hand, we consider an offline scenario with a real applicability where there are no computational restrictions. In this case, we propose methods that considerably improve the audio quality of multichannel separations by modelling the phase information of the multichannel signal. In this sense, we propose algorithms for singing voice separation and source localization. Finally, we explore decomposition algorithms based on audio-to-score alignment to develop a system able to search for a specific music score in a database.