Safety & Civility
Speech & Audio
Artificial Intelligence
マルチタスク学習を用いた音声毒性検出
Author
Venue
IEEE ICASSP '24
Abstract
ソーシャルコミュニケーションシステムは、コミュニティの安全性と健全性を守るためのモデレーションを支援するため、有害な音声コンテンツを特定する必要があります。音声の有害性分類は、音量やトーンといった音声のスタイルと、個々の単語や文脈における発話内容といったコンテンツの両方に依存します。 本研究では、音声ベースの有害性検出に向けた新たなエンドツーエンドのマルチタスク学習(MTL)パラダイムを提案し、既存の自動音声認識(ASR)やテキストベースのシステムに伴う課題に対処する。 ハードなパラメータ共有バックボーンと柔軟なソフトアテンションタスクアダプタを採用することで、本モデルは2つのタスクを実行する。1つは特定の有害行為カテゴリを対象とするマルチラベル有害性分類タスクであり、もう1つは有害なキーワードのみを転写することに焦点を当てた補助的な「音声からキーワード」検出タスクである。これにより、計算効率が向上し、分類出力を補完する。分類器がキーワード検出の品質を大幅に向上させることを確認した。また、トレーニングセットの自動オフラインラベリングのためのデータパイプラインも提案する。
