Verbesserung der Erkennung von toxischen Äußerungen in mehreren Sprachen durch Sprach-Text-Alignment
Author
Venue
Interspeech 2024
Abstract
Die Klassifizierung der Toxizität von Sprachäußerungen stützt sich stark auf den semantischen Inhalt der Sprache. Wir schlagen ein neuartiges Framework vor, das crossmodales Lernen nutzt, um die semantische Einbettung von Text während des Trainings in einen Multilabel-Klassifikator für die Toxizität von Sprachäußerungen zu integrieren. Dies ermöglicht es uns, Textinformationen während des Trainings einzubeziehen, während für die Inferenz weiterhin nur Audio benötigt wird. Wir evaluieren diesen Klassifikator anhand groß angelegter Datensätze mit realistischen Merkmalen, um die Wirksamkeit dieses Rahmens zu validieren. Durch Ablationsstudien zeigen wir, dass allgemeine semantische Text-Embeddings reichhaltig sind und für die Zwecke der Toxizitätsklassifizierung gut auf Sprache abgestimmt sind. Durch groß angelegte Experimente in mehreren Sprachen zeigen wir Verbesserungen bei der Klassifizierung der Sprachtoxizität in fünf Sprachen und verschiedenen Toxizitätskategorien.
