Safety & Civility
Artificial Intelligence
Speech & Audio
音声とテキストの照合による多言語音声毒性検出の精度向上
Author
Venue
Interspeech 2024
Abstract
音声の有害性分類は、音声のセマンティックな内容に大きく依存している。我々は、クロスモーダル学習を活用し、トレーニング中にテキストのセマンティックな埋め込みを多ラベル音声有害性分類器に統合する新しいフレームワークを提案する。これにより、トレーニング中にテキスト情報を組み込みつつ、推論時には音声データのみを必要とすることを可能にする。 本フレームワークの有効性を検証するため、実世界の特徴を持つ大規模データセットを用いて本分類器を評価した。アブレーション研究を通じて、汎用的な意味的テキスト埋め込みが豊かであり、音声毒性分類の目的において音声と整合していることを実証した。また、多言語にわたる大規模な実験を実施し、5つの言語および異なる毒性カテゴリにおいて、音声毒性分類の精度向上が確認された。
