다중 작업 학습을 활용한 음성 유해성 탐지

Share

Author

마헤시 쿠마르 난드와나(Roblox), 이판 허(Roblox + 카네기 멜론 대학교), 조셉 리우(Roblox), 샤오 유(Roblox), 찰스 샹(Roblox), 엘로이 뒤 부아(Roblox), 모건 맥과이어(Roblox), 키란 바트(Roblox)

Venue

IEEE ICASSP '24

Abstract

사회적 소통 시스템은 커뮤니티의 안전과 예의를 보호하기 위한 관리 활동을 지원하기 위해 유해한 음성 콘텐츠를 식별해야 합니다. 음성의 유해성 분류는 음량이나 어조와 같은 음성 스타일뿐만 아니라, 개별 단어 및 문맥상의 맥락과 같은 콘텐츠에 따라 결정됩니다. 본 연구에서는 기존 자동 음성 인식(ASR) 및 텍스트 기반 시스템의 한계를 해결하는, 오디오 기반 유해성 탐지를 위한 새로운 종단간 다중 작업 학습(MTL) 패러다임을 제안합니다. 강한 매개변수 공유 백본과 유연한 소프트 어텐션 태스크 어댑터를 활용함으로써, 본 모델은 두 가지 작업을 수행합니다: 특정 범주의 유해 행동을 대상으로 하는 다중 레이블 유해성 분류 작업과, 유해 키워드만 전사하는 데 초점을 맞춘 보조적인 '오디오-키워드' 탐지 작업입니다. 이를 통해 계산 효율성을 높이고 분류 결과를 보완합니다. 본 연구에서는 분류기가 키워드 탐지 품질을 현저히 향상시킨다는 사실을 확인했습니다. 또한 훈련 데이터 세트의 자동 오프라인 라벨링을 위한 데이터 파이프라인을 제안합니다.

함께 미래를 만들어 갑시다

모든 채용 정보 보기

최신

더 많은 결과

다중 작업 학습을 활용한 음성 유해성 탐지

Author

Venue

Abstract

함께 미래를 만들어 갑시다

다중 작업 학습을 활용한 음성 유해성 탐지

Author

Venue

Abstract

Related Publications

CubePart: 개방형 어휘를 지원하는 부품 제어형 3D 생성기

동시 음성 번역을 위한 시간 인식 네트워크를 활용한 정규화 엔트로피 정보 적응

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

함께 미래를 만들어 갑시다