เครื่องสังเคราะห์เสียงแบบการแพร่กระจายสำหรับการแปลเสียงพูดหลายภาษาอย่างมีประสิทธิภาพ
Author
Venue
Interspeech 2024
Abstract
เราขอแนะนำ DiffuseST ซึ่งเป็นระบบแปลเสียงพูดโดยตรงที่มีความหน่วงต่ำและสามารถรักษาเสียงของผู้พูดต้นฉบับไว้ได้โดยไม่ต้องมีการฝึกฝนล่วงหน้า ขณะเดียวกันสามารถแปลจากหลายภาษาต้นทางเป็นภาษาอังกฤษได้ เราได้ทำการทดลองกับส่วนประกอบของสถาปัตยกรรมที่เรียกว่าตัวสังเคราะห์เสียง โดยเปรียบเทียบตัวสังเคราะห์เสียงที่ใช้ Tacotron กับตัวสังเคราะห์เสียงใหม่ที่พัฒนาขึ้นโดยใช้การกระจายตัว (diffusion-based) เราพบว่าเครื่องสังเคราะห์เสียงที่ใช้การแพร่กระจายสามารถปรับปรุงตัวชี้วัดคุณภาพเสียง MOS และ PESQ ได้เพิ่มขึ้น 23% ต่อตัว และเพิ่มความคล้ายคลึงของผู้พูดได้ 5% ในขณะที่ยังคงรักษาคะแนน BLEU ที่ใกล้เคียงกันไว้ได้ แม้ว่าจะมีจำนวนพารามิเตอร์มากกว่าสองเท่า แต่เครื่องสังเคราะห์เสียงที่ใช้การแพร่กระจายกลับมีค่าความหน่วงต่ำกว่า ทำให้ทั้งโมเดลสามารถทำงานได้เร็วกว่าแบบเรียลไทม์มากกว่า 5 เท่า
