Erkennung von Sprachtoxizität mittels Multitask-Lernen
Author
Venue
IEEE ICASSP '24
Abstract
Soziale Kommunikationssysteme müssen toxische Sprachaufnahmen identifizieren, um eine Moderation zu unterstützen, die die Sicherheit und den guten Ton in ihren Communities gewährleistet. Die Klassifizierung von Toxizität bei Sprachaufnahmen hängt sowohl vom Audio-Stil, wie Lautstärke und Tonfall, als auch vom Inhalt ab, wie den einzelnen Wörtern in der Rede und deren Kontext. Wir stellen ein neuartiges End-to-End-Multi-Task-Learning-Paradigma (MTL) für die audiobasierte Erkennung toxischer Inhalte vor, das die Herausforderungen bestehender automatischer Spracherkennung (ASR) und textbasierter Systeme angeht. Durch den Einsatz eines Backbones mit harter Parameterteilung und flexibler Soft-Attention-Task-Adaptern führt unser Modell zwei Aufgaben aus: eine Multi-Label-Toxizitätsklassifizierung, die auf bestimmte Kategorien toxischen Verhaltens abzielt, und eine zusätzliche Audio-zu-Schlüsselwort-Erkennungsaufgabe, die sich darauf konzentriert, nur toxische Schlüsselwörter zu transkribieren, wodurch die Recheneffizienz verbessert und die Klassifizierungsergebnisse ergänzt werden. Wir stellen fest, dass der Klassifikator die Qualität der Schlüsselwort-Erkennung deutlich verbessert. Außerdem stellen wir eine Datenpipeline für die automatisierte Offline-Kennzeichnung von Trainingsdatensätzen bereit.
