Die Inhalte dieser Website wurden mithilfe künstlicher Intelligenz (KI) oder maschineller Übersetzungstechnologie übersetzt und können Fehler enthalten.

Skip to content
Safety & Civility
Artificial Intelligence
Speech & Audio

Verbesserung der Erkennung von toxischen Äußerungen in mehreren Sprachen durch Sprach-Text-Alignment

View Publication

Author

Joseph Liu (Roblox), Mahesh Kumar Nandwana (Roblox), Janne Pylkkönen (Roblox), Hannes Heikinheimo (Roblox), Morgan McGuire (Roblox)

Venue

Interspeech 2024

Abstract

Die Klassifizierung der Toxizität von Sprachäußerungen stützt sich stark auf den semantischen Inhalt der Sprache. Wir schlagen ein neuartiges Framework vor, das crossmodales Lernen nutzt, um die semantische Einbettung von Text während des Trainings in einen Multilabel-Klassifikator für die Toxizität von Sprachäußerungen zu integrieren. Dies ermöglicht es uns, Textinformationen während des Trainings einzubeziehen, während für die Inferenz weiterhin nur Audio benötigt wird. Wir evaluieren diesen Klassifikator anhand groß angelegter Datensätze mit realistischen Merkmalen, um die Wirksamkeit dieses Rahmens zu validieren. Durch Ablationsstudien zeigen wir, dass allgemeine semantische Text-Embeddings reichhaltig sind und für die Zwecke der Toxizitätsklassifizierung gut auf Sprache abgestimmt sind. Durch groß angelegte Experimente in mehreren Sprachen zeigen wir Verbesserungen bei der Klassifizierung der Sprachtoxizität in fünf Sprachen und verschiedenen Toxizitätskategorien.