raffaele parisi - tesi di laurea

Tesi di Laurea

Gli argomenti che mi interessano riguardano in generale le tecniche di trattamento del segnale e sono descritti brevemente nel seguito.

Le tesi che propongo sono destinate ai laureandi di primo e di secondo livello.

Machine learning

Il machine learning o apprendimento automatico è oggi molto popolare e utilizzato nei settori applicativi più differenti. Le reti neurali artificiali rientrano ora nel campo del machine learning. Si tratta di architetture fortemente non lineari, basate sulla connessione di unità semplici, utilizzate per numerosi applicazioni ad esempio di riconoscimento e classificazione. La ricerca in questo settore riguarda sia gli aspetti più propriamente teorici, legati alla sintesi ottimale della rete, che quelli applicativi. In entrambi i casi sono disponibili tesi di laurea.

Esempio di rete neurale a due strati (multilayer perceptron)

Localizzazione binaurale di sorgenti sonore

Il sistema uditivo dell'uomo consente la localizzazione di una sorgente sonora con due "ricevitori", cui contribuiscono anche l'effetto ombra del corpo e il canale uditivo interno. Le funzioni di trasferimento della testa (o Head-related Transfer Functions, HRTF) sono state misurate utilizzando un certo numero di persone e di manichini e sono così disponibili. La localizzazione di una sorgente può avvenire per esempio stimando le differenze di fase e di livello tra i segnali acquisiti (rispettivamente Interaural Time Difference, ITD, e Interaural Level Difference, ILD), in bande di frequenza differenti, e utilizzando queste informazioni in modo congiunto.

Quando la localizzazione avviene in un ambiente chiuso, in più si deve tenere conto del riverbero, cioè dell'effetto delle riflessioni del segnale sulle pareti e sugli oggetti presenti. In genere il problema viene affrontato mediante delle tecniche di filtraggio opportune.

Nel nostro laboratorio è stata realizzato il prototipo di una testa robotica (riprodotta qui a fianco), in grado di individuare la presenza di una sorgente sonora (per esempio una persona che parla) e di ruotare nella sua direzione. La testa è anche equipaggiata con due telecamere. In fondo a questa pagina potete scaricare un file che vi mostra come funziona.

Attualmente stiamo studiando la possibilità di estendere questo sistema a più teste robotiche, che possano cooperare alla localizzazione.

Trattamento di segnali audio in ambienti riverberanti

Le onde sonore che vengono generate da una sorgente e si propagano in un ambiente chiuso originano un fenomeno complesso che prende il nome di riverbero, dovuto alla sovrapposizione degli effetti di riflessione, diffrazione e diffusione. L'acustica "geometrica" trascura in prima approssimazione diffrazione e diffusione, limitandosi a modellare le riflessioni del segnale sulle pareti e sugli ostacoli eventualmente presenti. Il risultato è il modellamento della funzione di trasferimento della stanza, o equivalentemente della sua risposta impulsiva. In particolare una tecnica spesso utilizzata è quella che fa uso di sorgenti "virtuali" disposte esternamente alla stanza (metodo delle sorgenti immagine).

La modellazione delle riflessioni presenti in un ambiente chiuso

Tipica risposta impulsiva di un ambiente chiuso

Tra le applicazioni di interesse vi sono innanzitutto la localizzazione e l'inseguimento di sorgenti sonore, che costituiscono una parte importante di molti sistemi per video-conferenza, telefonia in viva-voce, ecc. I parametri spaziali che si ottengono nel processo di localizzazione possono essere successivamente utilizzati per il dereverbero dei segnali (parlato o musica), la detezione di difetti in macchinari, il riconoscimento di parlatori.

La conoscenza delle proprietà acustiche di un ambiente è fondamentale nelle applicazioni multimediali, ad esempio per ricostruire uno scenario sonoro tramite schiere di altoparlanti o anche semplicemente per creare l'effetto di una sorgente virtuale comunque posizionata nello spazio. Inoltre la disponibilità del modello acustico di una sala di ripresa consente di ricreare le condizioni di ascolto originarie in un ambiente diverso (per esempio in applicazioni di "home theater"). In questo tipo di applicazioni è importante inoltre tenere conto dell'effetto complessivo di percezione da parte dell'ascoltatore, mediante l'introduzione di una opportuna funzione di traferimento (Head-related transfer funtion, HRTF).

Localizzazione di sorgenti sonore mediante array di microfoni

La localizzazione delle sorgenti sonore può avvenire mediante tecniche di "array processing" (per esempio "beamforming") oppure tramite la stima preliminare dei ritardi relativi (Time Delay of Arrival, TDOA) tra i segnali acquisiti da coppie di microfoni, seguita da triangolazione. In particolare le TDOA possono essere stimate mediante tecniche di cross-correlazione generalizzata. Il problema principale è quello di trattare in modo adeguato gli "arrivi multipli" sui microfoni, dati dalla sovrapposizione dei segnali diretti tra sorgenti e microfoni e dei segnali riflessi. La presenza del riverbero richiede quindi l'utilizzo di opportune tecniche di pre-elaborazione affinchè la stima delle TDOA avvenga correttamente.

Stima della posizione di una sorgente sonora all'interno di una stanza