Die Inhalte dieser Website wurden mithilfe künstlicher Intelligenz (KI) oder maschineller Übersetzungstechnologie übersetzt und können Fehler enthalten.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Erkennung von Sprachtoxizität mittels Multitask-Lernen

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Carnegie Mellon University), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) und Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Soziale Kommunikationssysteme müssen toxische Sprachaufnahmen identifizieren, um eine Moderation zu unterstützen, die die Sicherheit und den guten Ton in ihren Communities gewährleistet. Die Klassifizierung von Toxizität bei Sprachaufnahmen hängt sowohl vom Audio-Stil, wie Lautstärke und Tonfall, als auch vom Inhalt ab, wie den einzelnen Wörtern in der Rede und deren Kontext. Wir stellen ein neuartiges End-to-End-Multi-Task-Learning-Paradigma (MTL) für die audiobasierte Erkennung toxischer Inhalte vor, das die Herausforderungen bestehender automatischer Spracherkennung (ASR) und textbasierter Systeme angeht. Durch den Einsatz eines Backbones mit harter Parameterteilung und flexibler Soft-Attention-Task-Adaptern führt unser Modell zwei Aufgaben aus: eine Multi-Label-Toxizitätsklassifizierung, die auf bestimmte Kategorien toxischen Verhaltens abzielt, und eine zusätzliche Audio-zu-Schlüsselwort-Erkennungsaufgabe, die sich darauf konzentriert, nur toxische Schlüsselwörter zu transkribieren, wodurch die Recheneffizienz verbessert und die Klassifizierungsergebnisse ergänzt werden. Wir stellen fest, dass der Klassifikator die Qualität der Schlüsselwort-Erkennung deutlich verbessert. Außerdem stellen wir eine Datenpipeline für die automatisierte Offline-Kennzeichnung von Trainingsdatensätzen bereit.