Safety & Civility
Speech & Audio
Artificial Intelligence
다중 작업 학습을 활용한 음성 유해성 탐지
Author
Venue
IEEE ICASSP '24
Abstract
사회적 소통 시스템은 커뮤니티의 안전과 예의를 보호하기 위한 관리 활동을 지원하기 위해 유해한 음성 콘텐츠를 식별해야 합니다. 음성의 유해성 분류는 음량이나 어조와 같은 음성 스타일뿐만 아니라, 개별 단어 및 문맥상의 맥락과 같은 콘텐츠에 따라 결정됩니다. 본 연구에서는 기존 자동 음성 인식(ASR) 및 텍스트 기반 시스템의 한계를 해결하는, 오디오 기반 유해성 탐지를 위한 새로운 종단간 다중 작업 학습(MTL) 패러다임을 제안합니다. 강한 매개변수 공유 백본과 유연한 소프트 어텐션 태스크 어댑터를 활용함으로써, 본 모델은 두 가지 작업을 수행합니다: 특정 범주의 유해 행동을 대상으로 하는 다중 레이블 유해성 분류 작업과, 유해 키워드만 전사하는 데 초점을 맞춘 보조적인 '오디오-키워드' 탐지 작업입니다. 이를 통해 계산 효율성을 높이고 분류 결과를 보완합니다. 본 연구에서는 분류기가 키워드 탐지 품질을 현저히 향상시킨다는 사실을 확인했습니다. 또한 훈련 데이터 세트의 자동 오프라인 라벨링을 위한 데이터 파이프라인을 제안합니다.
