Nội dung trên trang web này đã được dịch bằng trí tuệ nhân tạo (AI) hoặc công nghệ dịch máy và có thể có lỗi.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Phát hiện độc tính giọng nói bằng cách sử dụng học đa tác vụ

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Đại học Carnegie Mellon), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) và Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Các hệ thống truyền thông xã hội phải xác định các âm thanh giọng nói độc hại để hỗ trợ việc kiểm duyệt, nhằm bảo vệ sự an toàn và văn minh của cộng đồng. Việc phân loại mức độ độc hại của giọng nói phụ thuộc vào cả phong cách âm thanh, chẳng hạn như âm lượng và giọng điệu, cũng như nội dung, chẳng hạn như các từ trong bài phát biểu riêng lẻ và trong ngữ cảnh. Chúng tôi giới thiệu một mô hình học đa tác vụ (MTL) đầu cuối mới cho việc phát hiện độc hại dựa trên âm thanh, giải quyết các thách thức liên quan đến các hệ thống nhận dạng giọng nói tự động (ASR) và hệ thống dựa trên văn bản hiện có. Bằng cách sử dụng một mô hình nền tảng chia sẻ tham số cứng và các bộ điều chỉnh tác vụ linh hoạt dựa trên chú ý mềm, mô hình của chúng tôi thực hiện hai tác vụ: tác vụ phân loại độc hại đa nhãn nhắm vào các danh mục cụ thể của hành vi độc hại, và tác vụ phát hiện từ khóa từ âm thanh phụ trợ tập trung vào việc chuyển đổi thành văn bản chỉ các từ khóa độc hại, từ đó nâng cao hiệu quả tính toán và bổ sung cho kết quả phân loại. Chúng tôi nhận thấy rằng bộ phân loại cải thiện đáng kể chất lượng phát hiện từ khóa. Chúng tôi cũng đóng góp một quy trình xử lý dữ liệu để gắn nhãn tự động ngoại tuyến cho tập dữ liệu huấn luyện.