เนื้อหาในเว็บไซต์นี้ได้รับการแปลโดยใช้ปัญญาประดิษฐ์ (AI) หรือเทคโนโลยีการแปลด้วยเครื่อง และอาจมีข้อผิดพลาด

Skip to content
Natural Language Processing
Speech & Audio

เครื่องสังเคราะห์เสียงแบบการแพร่กระจายสำหรับการแปลเสียงพูดหลายภาษาอย่างมีประสิทธิภาพ

View Publication

Author

นามิร เฮิร์ชไคนด์ (Roblox), เซียว หยู (Roblox), มาเฮช กุมาร นันดวานา (Roblox), โจเซฟ หลิว (Roblox), เอโลอิ ดูบัวส์ (Roblox), ดาว เล (Roblox), นิโคลัส เทียโบ (Roblox), โคลิน ซินแคลร์ (Roblox), ไคล์ สเปนซ์ (Roblox), ชาร์ลส์ ชาง (Roblox), โซอี้ อับรามส์ (Roblox), มอร์แกน แมคไกวร์ (Roblox)

Venue

Interspeech 2024

Abstract

เราขอแนะนำ DiffuseST ซึ่งเป็นระบบแปลเสียงพูดโดยตรงที่มีความหน่วงต่ำและสามารถรักษาเสียงของผู้พูดต้นฉบับไว้ได้โดยไม่ต้องมีการฝึกฝนล่วงหน้า ขณะเดียวกันสามารถแปลจากหลายภาษาต้นทางเป็นภาษาอังกฤษได้ เราได้ทำการทดลองกับส่วนประกอบของสถาปัตยกรรมที่เรียกว่าตัวสังเคราะห์เสียง โดยเปรียบเทียบตัวสังเคราะห์เสียงที่ใช้ Tacotron กับตัวสังเคราะห์เสียงใหม่ที่พัฒนาขึ้นโดยใช้การกระจายตัว (diffusion-based) เราพบว่าเครื่องสังเคราะห์เสียงที่ใช้การแพร่กระจายสามารถปรับปรุงตัวชี้วัดคุณภาพเสียง MOS และ PESQ ได้เพิ่มขึ้น 23% ต่อตัว และเพิ่มความคล้ายคลึงของผู้พูดได้ 5% ในขณะที่ยังคงรักษาคะแนน BLEU ที่ใกล้เคียงกันไว้ได้ แม้ว่าจะมีจำนวนพารามิเตอร์มากกว่าสองเท่า แต่เครื่องสังเคราะห์เสียงที่ใช้การแพร่กระจายกลับมีค่าความหน่วงต่ำกว่า ทำให้ทั้งโมเดลสามารถทำงานได้เร็วกว่าแบบเรียลไทม์มากกว่า 5 เท่า