Nâng cao khả năng phát hiện độc hại trong giọng nói đa ngôn ngữ thông qua việc đối chiếu giọng nói và văn bản
Author
Venue
Interspeech 2024
Abstract
Phân loại độc hại trong giọng nói phụ thuộc rất nhiều vào nội dung ngữ nghĩa của lời nói. Chúng tôi đề xuất một khung công tác mới sử dụng học tập đa phương thức để tích hợp nhúng ngữ nghĩa của văn bản vào bộ phân loại độc hại giọng nói đa nhãn trong quá trình huấn luyện. Điều này cho phép chúng tôi kết hợp thông tin văn bản trong quá trình huấn luyện trong khi vẫn chỉ cần âm thanh trong quá trình suy luận. Chúng tôi đánh giá mô hình phân loại này trên các tập dữ liệu quy mô lớn có đặc điểm thực tế để xác nhận hiệu quả của khung công tác này. Thông qua các nghiên cứu loại bỏ, chúng tôi chứng minh rằng các nhúng ngữ nghĩa văn bản đa năng là phong phú và phù hợp với giọng nói cho mục đích phân loại độc hại. Thực hiện các thí nghiệm trên nhiều ngôn ngữ với quy mô lớn, chúng tôi cho thấy sự cải thiện trong phân loại độc hại giọng nói trên năm ngôn ngữ và các danh mục độc hại khác nhau.
