Le comunicazioni di tipo call-center rappresentano una realtà consolidata nella nostra società. Esse coinvolgono tipicamente un utente ed un operatore, e vengono registrate su un unico canale audio, su cui sono poi applicati algoritmi di Speech Analytics per l’estrazione di informazioni utili per l’ottimizzazione del servizio. La scarsa qualità dell’audio, dovuta a rumori ambientali, distorsioni di canale e sovrapposizione di segnali vocali, compromette l’efficacia di tali algoritmi. Risulta quindi di primaria importanza pre-elaborare il segnale audio al fine di distinguere i contributi vocali relativi all’utente e all’operatore, e migliorarne la qualità. L’obiettivo del progetto è quello di sviluppare 4 algoritmi distinti (Speech Enhancement, Voice Activity Detection, Speaker Diarization e Speech Separation) da applicare al segnale registrato, sia in modalità offline che online. Sarà effettuata un’estensiva attività di sperimentazione su dati reali per validare l’efficacia degli algoritmi sviluppati.

Partners:

PerVoice Spa
Unversita’ Politecnica delle Marche
Durata: 21 mesi a partire da Aprile 2020

Finanziamento: il progetto e’ parzialmente finanziato dalla Fondazione Caritro

Motivation
La Speech Analytics per call-center comporta l’analisi di grandi quantità di telefonate al fine di estrarre statistiche volte anzitutto a valutare la qualità del servizio offerto (per esempio, l’aderenza del dialogo a protocolli stabiliti), ed individuarne le possibili direzioni di miglioramento. L’estrazione automatica degli indicatori consente un’analisi di quantità di dati molto maggiori rispetto ad un’analisi manuale. Questa estrazione richiede l’identificazione delle porzioni di parlato di ciascun interlocutore. Nel caso ottimale, ma più costoso, si dispone di canali distinti ed il problema non si pone.  Molto più frequente è tuttavia il caso in cui si dispone di un solo canale. Per poter fornire in queste condizioni un servizio con efficacia paragonabile a quella della configurazione ottimale, diventa necessario individuare ed isolare i contributi di ciascun parlatore in maniera automatica.

Il problema rientra quindi nell’ambito dello Speech Processing, un settore ben esplorato dalla ricerca, e delle relative sotto-aree di studio. Nella maggior parte dei casi però le valutazioni standard dei metodi, che servono da riferimento nelle pubblicazioni, si basano su corpora con caratteristiche diverse dal dominio di interesse del presente progetto. Rispetto a quanto disponibile in letteratura, quindi, alla base del presente progetto sta la necessità di operare con dati provenienti dal mondo reale partendo dalla sola forma d’onda senza informazioni aggiuntive. A tal fine saranno utilizzate le caratteristiche relative ai contributi vocali di interesse ed inferite tramite gli algoritmi di Voice Activity Detection, Speech Enhancement, Speaker Diarization e Speech Separation, come descritto nel seguito.

Goals
L’obiettivo del progetto consiste nello sviluppo di moduli preposti all’elaborazione del segnale vocale orientati alle comunicazioni di tipo call-center. Queste comunicazioni sono tipicamente singolo canale ed il segnale audio registrato è caratterizzato da diverse sorgenti acustiche: il parlatore remoto, l’operatore del call center ed eventuali sorgenti interferenti localizzate negli ambienti in cui si trovano utente e operatore. L’obiettivo consiste nel separare i due contributi principali di segnale vocale, utente ed operatore, identificando le zone temporali in cui sono attivi e allo stesso tempo migliorare la qualità dei due segnali eliminando il contenuto audio delle sorgenti interferenti. I moduli sviluppati potranno essere combinati a seconda dell’applicazione finale di interesse e saranno di supporto ad algoritmi di Speech Analytics, come riconoscitori automatici del parlato e rilevatori di parole chiave. I moduli che verranno trattati nel corso del progetto sono:

·         Modulo di rilevamento dell’attività vocale (Voice Activity Detection)

·         Modulo di miglioramento della qualità del parlato (Speech Enhancement)

·         Modulo di diarizzazione dei parlatori (Speaker Diarization)

·         Modulo di separazione dei contributi vocali (Speech Separation)

Tali moduli saranno organizzati secondo la pipeline illustrata in Fig.1 e potranno operare sia offline, ovvero su segnali vocali preventivamente acquisiti e memorizzati, che on-line, ovvero simultaneamente all’acquisizione del segnale stesso, sempre con l’obiettivo di agevolare il compito dei successivi algoritmi di Speech Analytics.