Rilevamento della tossicità vocale tramite apprendimento multitasking

Share

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Carnegie Mellon University), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) e Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

I sistemi di comunicazione sociale devono identificare i contenuti audio tossici per supportare la moderazione che tutela la sicurezza e la civiltà delle loro comunità. La classificazione della tossicità per la voce dipende sia dallo stile audio, come il volume e il tono, sia dal contenuto, come le parole nel discorso singolarmente e nel contesto. Introduciamo un nuovo paradigma di apprendimento multi-task (MTL) end-to-end per il rilevamento della tossicità basato sull'audio, affrontando le sfide associate all'attuale riconoscimento vocale automatico (ASR) e ai sistemi basati sul testo. Utilizzando un backbone con condivisione rigida dei parametri e adattatori di attività flessibili con soft-attention, il nostro modello svolge due compiti: un compito di classificazione della tossicità multi-label che prende di mira categorie specifiche di comportamenti tossici e un compito ausiliario di rilevamento da audio a parole chiave che si concentra sulla trascrizione solo delle parole chiave tossiche, migliorando così l'efficienza computazionale e integrando l'output della classificazione. Osserviamo che il classificatore migliora significativamente la qualità del rilevamento delle parole chiave. Contribuiamo inoltre con una pipeline di dati per l'etichettatura automatizzata offline dei set di addestramento.

Unisciti a noi per plasmare il futuro

Visualizza tutti i lavori

Recenti

Altri risultati

Rilevamento della tossicità vocale tramite apprendimento multitasking

Author

Venue

Abstract

Unisciti a noi per plasmare il futuro

Rilevamento della tossicità vocale tramite apprendimento multitasking

Author

Venue

Abstract

Related Publications

CubePart: un generatore 3D a vocabolario aperto e controllabile per parti

Adattamento delle informazioni di entropia regolarizzata con reti temporali per la traduzione simultanea del parlato

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Unisciti a noi per plasmare il futuro