I contenuti di questo sito sono stati tradotti mediante intelligenza artificiale (IA) o tecnologia di traduzione automatica e potrebbero contenere errori.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Rilevamento della tossicità vocale tramite apprendimento multitasking

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Carnegie Mellon University), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) e Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

I sistemi di comunicazione sociale devono identificare i contenuti audio tossici per supportare la moderazione che tutela la sicurezza e la civiltà delle loro comunità. La classificazione della tossicità per la voce dipende sia dallo stile audio, come il volume e il tono, sia dal contenuto, come le parole nel discorso singolarmente e nel contesto. Introduciamo un nuovo paradigma di apprendimento multi-task (MTL) end-to-end per il rilevamento della tossicità basato sull'audio, affrontando le sfide associate all'attuale riconoscimento vocale automatico (ASR) e ai sistemi basati sul testo. Utilizzando un backbone con condivisione rigida dei parametri e adattatori di attività flessibili con soft-attention, il nostro modello svolge due compiti: un compito di classificazione della tossicità multi-label che prende di mira categorie specifiche di comportamenti tossici e un compito ausiliario di rilevamento da audio a parole chiave che si concentra sulla trascrizione solo delle parole chiave tossiche, migliorando così l'efficienza computazionale e integrando l'output della classificazione. Osserviamo che il classificatore migliora significativamente la qualità del rilevamento delle parole chiave. Contribuiamo inoltre con una pipeline di dati per l'etichettatura automatizzata offline dei set di addestramento.