திறமையான பலமொழி பேச்சிலிருந்து பேச்சு மொழிபெயர்ப்பிற்கான பரவல் தொகுப்பி
Author
Venue
இன்டர்ஸ்பீச் 2024
Abstract
நாங்கள் டிஃப்பியூஸ்எஸ்டி (DiffuseST)-ஐ அறிமுகப்படுத்துகிறோம், இது குறைந்த தாமதத்துடன் செயல்படும், நேரடி பேச்சு-பேச்சு மொழிபெயர்ப்பு அமைப்பாகும். இது பல மூல மொழிகளிலிருந்து ஆங்கிலத்திற்கு மொழிபெயர்க்கும்போது, உள்ளீட்டு பேச்சாளரின் குரலை முன்கூட்டிய பயிற்சி இல்லாமல் (zero-shot) தக்க வைத்துக் கொள்ளும் திறன் கொண்டது. நாங்கள் இந்த கட்டமைப்பின் ஒலி உருவாக்கும் கூறுகளுடன் சோதனை செய்கிறோம், ஒரு டகோட்ரான்-அடிப்படையிலான ஒலி உருவாக்கியை ஒரு புதிய டிஃப்பியூஷன்-அடிப்படையிலான ஒலி உருவாக்கியுடன் ஒப்பிடுகிறோம். ஒப்பீட்டளவிலான BLEU மதிப்பெண்களைத் தக்கவைத்துக் கொள்ளும் அதே வேளையில், டிஃப்பியூஷன் அடிப்படையிலான ஒலித்தொகுப்பி MOS மற்றும் PESQ ஆடியோ தர அளவீடுகளை ஒவ்வொன்றும் 23% ஆகவும், பேச்சாளர் ஒற்றுமையை 5% ஆகவும் மேம்படுத்துவதை நாங்கள் காண்கிறோம். இரண்டு மடங்குக்கு மேல் அளவுரு எண்ணிக்கை கொண்டிருந்தாலும், டிஃப்பியூஷன் ஒலித்தொகுப்பி குறைந்த தாமதத்தைக் கொண்டுள்ளது, இது முழு மாதிரியையும் நிகழ்நேரத்தை விட 5×-க்கும் அதிகமாக வேகமாக இயக்க அனுமதிக்கிறது.
