Détection de la toxicité vocale à l'aide de l'apprentissage multitâche
Author
Venue
IEEE ICASSP '24
Abstract
Les systèmes de communication sociale doivent identifier les enregistrements vocaux toxiques afin de faciliter la modération qui garantit la sécurité et le respect au sein de leurs communautés. La classification de la toxicité des enregistrements vocaux dépend à la fois du style audio, tel que le volume et le ton, et du contenu, tel que les mots prononcés individuellement et dans leur contexte. Nous présentons un nouveau paradigme d'apprentissage multitâche de bout en bout (MTL) pour la détection de la toxicité audio, qui répond aux défis associés aux systèmes existants de reconnaissance vocale automatique (ASR) et aux systèmes textuels. En utilisant une architecture de base à partage de paramètres rigide et des adaptateurs de tâches flexibles à attention souple, notre modèle effectue deux tâches : une tâche de classification de toxicité multi-étiquettes qui cible des catégories spécifiques de comportements toxiques, et une tâche auxiliaire de détection « audio vers mot-clé » qui se concentre sur la transcription des seuls mots-clés toxiques, améliorant ainsi l'efficacité computationnelle et complétant le résultat de la classification. Nous observons que le classificateur améliore considérablement la qualité de la détection des mots-clés. Nous proposons également un pipeline de données pour l'étiquetage hors ligne automatisé des ensembles d'apprentissage.
