De content op deze site is vertaald met behulp van kunstmatige intelligentie (AI) of machinevertalingstechnologie en kan fouten bevatten.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Detectie van stemtoxiciteit met behulp van multitask-leren

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Carnegie Mellon University), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) en Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Sociale communicatiesystemen moeten giftige spraak herkennen om moderatie te ondersteunen die de veiligheid en beleefdheid van hun gemeenschappen beschermt. De classificatie van giftigheid voor spraak hangt zowel af van de stijl van de audio, zoals volume en toon, als van de inhoud, zoals de woorden in de toespraak afzonderlijk en in hun context. We introduceren een nieuw end-to-end multi-task learning (MTL)-paradigma voor op audio gebaseerde detectie van giftige inhoud, waarmee we de uitdagingen aanpakken die gepaard gaan met bestaande automatische spraakherkenning (ASR) en op tekst gebaseerde systemen. Door gebruik te maken van een harde parameter-sharing backbone en flexibele soft-attention taadaanpassers, voert ons model twee taken uit: een multi-label toxiciteitsclassificatietaak die zich richt op specifieke categorieën van giftig gedrag, en een aanvullende Audio-naar-trefwoord-detectietaak die zich richt op het transcriberen van alleen giftige trefwoorden, waardoor de computationele efficiëntie wordt verbeterd en de classificatie-output wordt aangevuld. We zien dat de classificator de kwaliteit van de trefwoorddetectie aanzienlijk verbetert. We dragen ook bij aan een datapijplijn voor het geautomatiseerd offline labelen van trainingssets.