이 사이트의 콘텐츠는 인공지능(AI) 또는 기계 번역 기술을 사용하여 번역되었으며 오류가 있을 수 있습니다.

Skip to content
Safety & Civility
Artificial Intelligence
Speech & Audio

음성-텍스트 정렬을 활용한 다국어 음성 독성 감지 성능 향상

View Publication

Author

조셉 리우(Roblox), 마헤시 쿠마르 난드와나(Roblox), 얀네 필코넨(Roblox), 한네스 헤이킨헤이모(Roblox), 모건 맥과이어(Roblox)

Venue

Interspeech 2024

Abstract

음성 독성 분류는 말의 의미적 내용에 크게 의존합니다. 우리는 훈련 과정에서 텍스트의 의미적 임베딩을 다중 레이블 음성 독성 분류기에 통합하기 위해 교차 모달 학습을 활용하는 새로운 프레임워크를 제안합니다. 이를 통해 훈련 시 텍스트 정보를 통합하면서도 추론 시에는 오디오만으로도 충분하게 만들 수 있습니다. 본 프레임워크의 유효성을 검증하기 위해 실제 환경의 특성을 지닌 대규모 데이터셋을 사용하여 이 분류기를 평가했다. 제거 실험을 통해, 범용 의미론적 텍스트 임베딩이 독성 분류 목적에 있어 풍부하며 음성과 잘 정렬되어 있음을 입증했다. 대규모 다국어 실험을 수행한 결과, 5개 언어와 다양한 독성 범주에 걸쳐 음성 독성 분류 성능이 향상되었음을 보여주었다.