Phát hiện độc tính giọng nói bằng cách sử dụng học đa tác vụ

Share

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Đại học Carnegie Mellon), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) và Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Các hệ thống truyền thông xã hội phải xác định các âm thanh giọng nói độc hại để hỗ trợ việc kiểm duyệt, nhằm bảo vệ sự an toàn và văn minh của cộng đồng. Việc phân loại mức độ độc hại của giọng nói phụ thuộc vào cả phong cách âm thanh, chẳng hạn như âm lượng và giọng điệu, cũng như nội dung, chẳng hạn như các từ trong bài phát biểu riêng lẻ và trong ngữ cảnh. Chúng tôi giới thiệu một mô hình học đa tác vụ (MTL) đầu cuối mới cho việc phát hiện độc hại dựa trên âm thanh, giải quyết các thách thức liên quan đến các hệ thống nhận dạng giọng nói tự động (ASR) và hệ thống dựa trên văn bản hiện có. Bằng cách sử dụng một mô hình nền tảng chia sẻ tham số cứng và các bộ điều chỉnh tác vụ linh hoạt dựa trên chú ý mềm, mô hình của chúng tôi thực hiện hai tác vụ: tác vụ phân loại độc hại đa nhãn nhắm vào các danh mục cụ thể của hành vi độc hại, và tác vụ phát hiện từ khóa từ âm thanh phụ trợ tập trung vào việc chuyển đổi thành văn bản chỉ các từ khóa độc hại, từ đó nâng cao hiệu quả tính toán và bổ sung cho kết quả phân loại. Chúng tôi nhận thấy rằng bộ phân loại cải thiện đáng kể chất lượng phát hiện từ khóa. Chúng tôi cũng đóng góp một quy trình xử lý dữ liệu để gắn nhãn tự động ngoại tuyến cho tập dữ liệu huấn luyện.

Hãy cùng chúng tôi kiến tạo tương lai

Xem tất cả công việc

Mới nhất

Thêm kết quả

Phát hiện độc tính giọng nói bằng cách sử dụng học đa tác vụ

Author

Venue

Abstract

Hãy cùng chúng tôi kiến tạo tương lai

Phát hiện độc tính giọng nói bằng cách sử dụng học đa tác vụ

Author

Venue

Abstract

Related Publications

CubePart: Trình tạo 3D có thể điều khiển từng phần với từ vựng mở

Thích ứng thông tin entropy chuẩn hóa với mạng nhận thức thời gian cho dịch thuật giọng nói đồng thời

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Hãy cùng chúng tôi kiến tạo tương lai