Le contenu de ce site a été traduit à l'aide de l'intelligence artificielle (IA) ou d'une technologie de traduction automatique, et peut contenir des erreurs.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Détection de la toxicité vocale à l'aide de l'apprentissage multitâche

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Université Carnegie Mellon), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) et Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Les systèmes de communication sociale doivent identifier les enregistrements vocaux toxiques afin de faciliter la modération qui garantit la sécurité et le respect au sein de leurs communautés. La classification de la toxicité des enregistrements vocaux dépend à la fois du style audio, tel que le volume et le ton, et du contenu, tel que les mots prononcés individuellement et dans leur contexte. Nous présentons un nouveau paradigme d'apprentissage multitâche de bout en bout (MTL) pour la détection de la toxicité audio, qui répond aux défis associés aux systèmes existants de reconnaissance vocale automatique (ASR) et aux systèmes textuels. En utilisant une architecture de base à partage de paramètres rigide et des adaptateurs de tâches flexibles à attention souple, notre modèle effectue deux tâches : une tâche de classification de toxicité multi-étiquettes qui cible des catégories spécifiques de comportements toxiques, et une tâche auxiliaire de détection « audio vers mot-clé » qui se concentre sur la transcription des seuls mots-clés toxiques, améliorant ainsi l'efficacité computationnelle et complétant le résultat de la classification. Nous observons que le classificateur améliore considérablement la qualité de la détection des mots-clés. Nous proposons également un pipeline de données pour l'étiquetage hors ligne automatisé des ensembles d'apprentissage.