مُركب الانتشار للترجمة الفعالة من لغة إلى أخرى
Author
Venue
Interspeech 2024
Abstract
نقدم DiffuseST، وهو نظام ترجمة مباشر من الكلام إلى الكلام ذو زمن انتقال منخفض، قادر على الحفاظ على صوت المتحدث المدخل بدون تدريب مسبق (zero-shot) أثناء الترجمة من لغات مصدر متعددة إلى اللغة الإنجليزية. نجري تجارب على مكون المُركب الصوتي في البنية، ونقارن بين مُركب صوتي قائم على Tacotron ومُركب صوتي جديد قائم على الانتشار. وجدنا أن المُركب القائم على الانتشار يحسّن مقاييس جودة الصوت MOS و PESQ بنسبة 23٪ لكل منهما، وتشابه المتحدث بنسبة 5٪، مع الحفاظ على درجات BLEU مماثلة. على الرغم من أن عدد المعلمات فيه يزيد عن الضعف، إلا أن المُركب القائم على الانتشار يتميز بزمن انتقال أقل، مما يسمح للنموذج بأكمله بالعمل بسرعة تزيد عن 5 أضعاف السرعة في الوقت الحقيقي.
