Nội dung trên trang web này đã được dịch bằng trí tuệ nhân tạo (AI) hoặc công nghệ dịch máy và có thể có lỗi.

Skip to content
Safety & Civility
Artificial Intelligence
Speech & Audio

Nâng cao khả năng phát hiện độc hại trong giọng nói đa ngôn ngữ thông qua việc đối chiếu giọng nói và văn bản

View Publication

Author

Joseph Liu (Roblox), Mahesh Kumar Nandwana (Roblox), Janne Pylkkönen (Roblox), Hannes Heikinheimo (Roblox), Morgan McGuire (Roblox)

Venue

Interspeech 2024

Abstract

Phân loại độc hại trong giọng nói phụ thuộc rất nhiều vào nội dung ngữ nghĩa của lời nói. Chúng tôi đề xuất một khung công tác mới sử dụng học tập đa phương thức để tích hợp nhúng ngữ nghĩa của văn bản vào bộ phân loại độc hại giọng nói đa nhãn trong quá trình huấn luyện. Điều này cho phép chúng tôi kết hợp thông tin văn bản trong quá trình huấn luyện trong khi vẫn chỉ cần âm thanh trong quá trình suy luận. Chúng tôi đánh giá mô hình phân loại này trên các tập dữ liệu quy mô lớn có đặc điểm thực tế để xác nhận hiệu quả của khung công tác này. Thông qua các nghiên cứu loại bỏ, chúng tôi chứng minh rằng các nhúng ngữ nghĩa văn bản đa năng là phong phú và phù hợp với giọng nói cho mục đích phân loại độc hại. Thực hiện các thí nghiệm trên nhiều ngôn ngữ với quy mô lớn, chúng tôi cho thấy sự cải thiện trong phân loại độc hại giọng nói trên năm ngôn ngữ và các danh mục độc hại khác nhau.