تمت ترجمة المحتوى الموجود على هذا الموقع باستخدام الذكاء الاصطناعي (AI) أو تقنية الترجمة الآلية، وقد تحتوي على أخطاء.

Skip to content
Natural Language Processing
Speech & Audio

مُركب الانتشار للترجمة الفعالة من لغة إلى أخرى

View Publication

Author

نامير هيرشكيند (Roblox)، شياو يو (Roblox)، ماهيش كومار ناندوانا (Roblox)، جوزيف ليو (Roblox)، إيلوي دوبوا (Roblox)، داو لي (Roblox)، نيكولاس تيبو (Roblox)، كولين سينكلير (Roblox)، كايل سبنس (Roblox)، تشارلز شانغ (Roblox)، زوي أبرامز (Roblox)، مورغان ماكغواير (Roblox)

Venue

Interspeech 2024

Abstract

نقدم DiffuseST، وهو نظام ترجمة مباشر من الكلام إلى الكلام ذو زمن انتقال منخفض، قادر على الحفاظ على صوت المتحدث المدخل بدون تدريب مسبق (zero-shot) أثناء الترجمة من لغات مصدر متعددة إلى اللغة الإنجليزية. نجري تجارب على مكون المُركب الصوتي في البنية، ونقارن بين مُركب صوتي قائم على Tacotron ومُركب صوتي جديد قائم على الانتشار. وجدنا أن المُركب القائم على الانتشار يحسّن مقاييس جودة الصوت MOS و PESQ بنسبة 23٪ لكل منهما، وتشابه المتحدث بنسبة 5٪، مع الحفاظ على درجات BLEU مماثلة. على الرغم من أن عدد المعلمات فيه يزيد عن الضعف، إلا أن المُركب القائم على الانتشار يتميز بزمن انتقال أقل، مما يسمح للنموذج بأكمله بالعمل بسرعة تزيد عن 5 أضعاف السرعة في الوقت الحقيقي.