এই সাইটের বিষয়বস্তু কৃত্রিম বুদ্ধিমত্তা (AI) বা মেশিন অনুবাদ প্রযুক্তি ব্যবহার করে অনুবাদ করা হয়েছে এবং ত্রুটি থাকতে পারে।

Skip to content
Speech & Audio

একইসঙ্গে বক্তৃতা অনুবাদের জন্য সময়সচেতন নেটওয়ার্কসহ নিয়মিতকৃত এন্ট্রপি তথ্য অভিযোজন

View Publication

Author

জোসেফ লিউ, নামীর হার্শকিণ্ড, ঝাও ইউ, মহেশ কুমার নন্দওয়ানা

Venue

ইন্টারস্পিচ ২০২৬

Abstract

সিমালটেইনিয়াস স্পিচ ট্রান্সলেশন (SimulST)-এ উচ্চ অনুবাদ গুণমান এবং কম বিলম্বের মধ্যে ভারসাম্য বজায় রাখতে হয়। সাম্প্রতিক একটি কাজের মাধ্যমে REINA-কে পরিচয় করানো হয়েছে, যা আরও অডিও পড়ার তথ্যগত লাভ অনুমান করে একটি Read/Write নীতি প্রশিক্ষণ দেয়। তবে আমরা দেখতে পাই যে তথ্যভিত্তিক নীতিগুলো প্রায়ই সময়গত প্রেক্ষাপট হারায়, যার ফলে নীতিটি লেখালেখি শুরু করার আগে অধিকাংশ অডিও পড়ার দিকে পক্ষপাত করে। আমরা REINA-কে উন্নত করতে দুটি পৃথক কৌশল ব্যবহার করি: একটি সুপারভাইজড এলাইনমেন্ট নেটওয়ার্ক (REINA-SAN) এবং একটি টাইমস্টেপ-অগমেন্টেড নেটওয়ার্ক (REINA-TAN)। আমাদের ফলাফলগুলি দেখায় যে যদিও উভয় পদ্ধতিই বেসলাইনকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায় এবং স্থিতিশীলতার সমস্যাগুলি সমাধান করে, REINA-TAN স্ট্রিমিং দক্ষতার জন্য সামান্য উন্নত পেয়ারটো ফ্রন্টিয়ার প্রদান করে, যেখানে REINA-SAN 'রিড লুপ'-এর বিরুদ্ধে আরও দৃঢ়তা প্রদান করে। Whisper-এ প্রয়োগ করলে, উভয় পদ্ধতিই Normalized Streaming Efficiency (NoSE) স্কোর দ্বারা পরিমাপকৃত স্ট্রিমিং দক্ষতার পেয়ারটো ফ্রন্টিয়ারকে বিদ্যমান প্রতিযোগিতামূলক বেসলাইনের তুলনায় 7.1% পর্যন্ত উন্নত করে।