Rilevamento della tossicità vocale tramite apprendimento multitasking
Author
Venue
IEEE ICASSP '24
Abstract
I sistemi di comunicazione sociale devono identificare i contenuti audio tossici per supportare la moderazione che tutela la sicurezza e la civiltà delle loro comunità. La classificazione della tossicità per la voce dipende sia dallo stile audio, come il volume e il tono, sia dal contenuto, come le parole nel discorso singolarmente e nel contesto. Introduciamo un nuovo paradigma di apprendimento multi-task (MTL) end-to-end per il rilevamento della tossicità basato sull'audio, affrontando le sfide associate all'attuale riconoscimento vocale automatico (ASR) e ai sistemi basati sul testo. Utilizzando un backbone con condivisione rigida dei parametri e adattatori di attività flessibili con soft-attention, il nostro modello svolge due compiti: un compito di classificazione della tossicità multi-label che prende di mira categorie specifiche di comportamenti tossici e un compito ausiliario di rilevamento da audio a parole chiave che si concentra sulla trascrizione solo delle parole chiave tossiche, migliorando così l'efficienza computazionale e integrando l'output della classificazione. Osserviamo che il classificatore migliora significativamente la qualità del rilevamento delle parole chiave. Contribuiamo inoltre con una pipeline di dati per l'etichettatura automatizzata offline dei set di addestramento.
