Nội dung trên trang web này đã được dịch bằng trí tuệ nhân tạo (AI) hoặc công nghệ dịch máy và có thể có lỗi.

Skip to content
Natural Language Processing
Speech & Audio

Bộ tổng hợp khuếch tán cho dịch thuật giọng nói đa ngôn ngữ hiệu quả

View Publication

Author

Nameer Hirschkind (Roblox), Xiao Yu (Roblox), Mahesh Kumar Nandwana (Roblox), Joseph Liu (Roblox), Eloi DuBois (Roblox), Dao Le (Roblox), Nicolas Thiebaut (Roblox), Colin Sinclair (Roblox), Kyle Spence (Roblox), Charles Shang (Roblox), Zoe Abrams (Roblox), Morgan McGuire (Roblox)

Venue

Interspeech 2024

Abstract

Chúng tôi giới thiệu DiffuseST, một hệ thống dịch trực tiếp từ giọng nói sang giọng nói có độ trễ thấp, có khả năng giữ nguyên giọng nói của người nói đầu vào mà không cần huấn luyện (zero-shot) khi dịch từ nhiều ngôn ngữ nguồn sang tiếng Anh. Chúng tôi tiến hành thử nghiệm với thành phần tổng hợp giọng nói của kiến trúc, so sánh giữa một bộ tổng hợp dựa trên Tacotron và một bộ tổng hợp mới dựa trên phương pháp khuếch tán. Chúng tôi nhận thấy bộ tổng hợp dựa trên khuếch tán cải thiện các chỉ số chất lượng âm thanh MOS và PESQ lần lượt là 23% và độ tương đồng giọng nói là 5%, đồng thời duy trì điểm BLEU tương đương. Mặc dù có số lượng tham số gấp hơn hai lần, bộ tổng hợp khuếch tán có độ trễ thấp hơn, cho phép toàn bộ mô hình chạy nhanh hơn 5 lần so với thời gian thực.