இந்த தளத்தின் உள்ளடக்கம் செயற்கை நுண்ணறிவு (AI) அல்லது இயந்திர மொழிபெயர்ப்பு தொழில்நுட்பம் மூலம் மொழிபெயர்க்கப்பட்டுள்ளது; பிழைகள் இருக்கலாம்.

Skip to content
Natural Language Processing
Speech & Audio

திறமையான பலமொழி பேச்சிலிருந்து பேச்சு மொழிபெயர்ப்பிற்கான பரவல் தொகுப்பி

View Publication

Author

நமீர் ஹிர்ஷ்கிண்ட் (Roblox), ஷியாவோ யூ (Roblox), மகேஷ் குமார் நந்தவனா (Roblox), ஜோசப் லியு (Roblox), எலோய் டுபோயிஸ் (Roblox), டாவோ லே (Roblox), நிக்கோலஸ் தியபாட் (Roblox), கோலின் சின்க்ளேர் (Roblox), கைல் ஸ்பென்ஸ் (Roblox), சார்லஸ் ஷாங் (Roblox), ஜோயி அப்ராம்ஸ் (Roblox), மோர்கன் மெக்கைர் (Roblox)

Venue

இன்டர்ஸ்பீச் 2024

Abstract

நாங்கள் டிஃப்பியூஸ்எஸ்டி (DiffuseST)-ஐ அறிமுகப்படுத்துகிறோம், இது குறைந்த தாமதத்துடன் செயல்படும், நேரடி பேச்சு-பேச்சு மொழிபெயர்ப்பு அமைப்பாகும். இது பல மூல மொழிகளிலிருந்து ஆங்கிலத்திற்கு மொழிபெயர்க்கும்போது, உள்ளீட்டு பேச்சாளரின் குரலை முன்கூட்டிய பயிற்சி இல்லாமல் (zero-shot) தக்க வைத்துக் கொள்ளும் திறன் கொண்டது. நாங்கள் இந்த கட்டமைப்பின் ஒலி உருவாக்கும் கூறுகளுடன் சோதனை செய்கிறோம், ஒரு டகோட்ரான்-அடிப்படையிலான ஒலி உருவாக்கியை ஒரு புதிய டிஃப்பியூஷன்-அடிப்படையிலான ஒலி உருவாக்கியுடன் ஒப்பிடுகிறோம். ஒப்பீட்டளவிலான BLEU மதிப்பெண்களைத் தக்கவைத்துக் கொள்ளும் அதே வேளையில், டிஃப்பியூஷன் அடிப்படையிலான ஒலித்தொகுப்பி MOS மற்றும் PESQ ஆடியோ தர அளவீடுகளை ஒவ்வொன்றும் 23% ஆகவும், பேச்சாளர் ஒற்றுமையை 5% ஆகவும் மேம்படுத்துவதை நாங்கள் காண்கிறோம். இரண்டு மடங்குக்கு மேல் அளவுரு எண்ணிக்கை கொண்டிருந்தாலும், டிஃப்பியூஷன் ஒலித்தொகுப்பி குறைந்த தாமதத்தைக் கொண்டுள்ளது, இது முழு மாதிரியையும் நிகழ்நேரத்தை விட 5×-க்கும் அதிகமாக வேகமாக இயக்க அனுமதிக்கிறது.