Détection de la toxicité vocale à l'aide de l'apprentissage multitâche

Share

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Université Carnegie Mellon), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) et Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Les systèmes de communication sociale doivent identifier les enregistrements vocaux toxiques afin de faciliter la modération qui garantit la sécurité et le respect au sein de leurs communautés. La classification de la toxicité des enregistrements vocaux dépend à la fois du style audio, tel que le volume et le ton, et du contenu, tel que les mots prononcés individuellement et dans leur contexte. Nous présentons un nouveau paradigme d'apprentissage multitâche de bout en bout (MTL) pour la détection de la toxicité audio, qui répond aux défis associés aux systèmes existants de reconnaissance vocale automatique (ASR) et aux systèmes textuels. En utilisant une architecture de base à partage de paramètres rigide et des adaptateurs de tâches flexibles à attention souple, notre modèle effectue deux tâches : une tâche de classification de toxicité multi-étiquettes qui cible des catégories spécifiques de comportements toxiques, et une tâche auxiliaire de détection « audio vers mot-clé » qui se concentre sur la transcription des seuls mots-clés toxiques, améliorant ainsi l'efficacité computationnelle et complétant le résultat de la classification. Nous observons que le classificateur améliore considérablement la qualité de la détection des mots-clés. Nous proposons également un pipeline de données pour l'étiquetage hors ligne automatisé des ensembles d'apprentissage.

Rejoignez-nous pour façonner l'avenir

Voir toutes les offres d'emploi

Récents

Plus de résultats

Détection de la toxicité vocale à l'aide de l'apprentissage multitâche

Author

Venue

Abstract

Rejoignez-nous pour façonner l'avenir

Détection de la toxicité vocale à l'aide de l'apprentissage multitâche

Author

Venue

Abstract

Related Publications

CubePart : un générateur 3D à vocabulaire ouvert et contrôlable par parties

Adaptation de l'entropie régularisée à l'aide de réseaux temporels pour la traduction simultanée de la parole

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Rejoignez-nous pour façonner l'avenir