Bộ tổng hợp khuếch tán cho dịch thuật giọng nói đa ngôn ngữ hiệu quả
Author
Venue
Interspeech 2024
Abstract
Chúng tôi giới thiệu DiffuseST, một hệ thống dịch trực tiếp từ giọng nói sang giọng nói có độ trễ thấp, có khả năng giữ nguyên giọng nói của người nói đầu vào mà không cần huấn luyện (zero-shot) khi dịch từ nhiều ngôn ngữ nguồn sang tiếng Anh. Chúng tôi tiến hành thử nghiệm với thành phần tổng hợp giọng nói của kiến trúc, so sánh giữa một bộ tổng hợp dựa trên Tacotron và một bộ tổng hợp mới dựa trên phương pháp khuếch tán. Chúng tôi nhận thấy bộ tổng hợp dựa trên khuếch tán cải thiện các chỉ số chất lượng âm thanh MOS và PESQ lần lượt là 23% và độ tương đồng giọng nói là 5%, đồng thời duy trì điểm BLEU tương đương. Mặc dù có số lượng tham số gấp hơn hai lần, bộ tổng hợp khuếch tán có độ trễ thấp hơn, cho phép toàn bộ mô hình chạy nhanh hơn 5 lần so với thời gian thực.
