স্পিচ-টেক্সট সারিবদ্ধতার মাধ্যমে বহুভাষিক ভয়েস টক্সিসিটি সনাক্তকরণ উন্নত করা
Author
Venue
ইন্টারস্পিচ ২০২৪
Abstract
ভয়েসের বিষাক্ততা শ্রেণীবিন্যাস প্রধানত বক্তৃতার অর্থগত বিষয়বস্তুর ওপর নির্ভর করে। আমরা একটি নতুন ফ্রেমওয়ার্ক প্রস্তাব করছি যা ক্রস-মোডাল লার্নিং ব্যবহার করে প্রশিক্ষণের সময় টেক্সটের সেম্যান্টিক এম্বেডিংকে মাল্টিলেবেল স্পিচ টক্সিসিটি ক্লাসিফায়ারে একত্রিত করে। এর ফলে প্রশিক্ষণের সময় আমরা টেক্সটভিত্তিক তথ্য অন্তর্ভুক্ত করতে পারি, অথচ ইনফারেন্সের সময় শুধুমাত্র অডিওই প্রয়োজন হয়। আমরা এই ফ্রেমওয়ার্কের কার্যকারিতা যাচাই করতে বাস্তব-বিশ্বের বৈশিষ্ট্যযুক্ত বৃহৎ-স্কেল ডেটাসেটে এই ক্লাসিফায়ারটি মূল্যায়ন করি। অ্যাবলেশন স্টাডির মাধ্যমে, আমরা দেখাই যে সাধারণ-উদ্দেশ্য সেম্যান্টিক টেক্সট এম্বেডিংসমূহ টক্সিসিটি ক্লাসিফিকেশনের জন্য সমৃদ্ধ এবং বক্তৃতার সাথে সামঞ্জস্যপূর্ণ। একাধিক ভাষায় ব্যাপক পরিসরে পরীক্ষা-নিরীক্ষা চালিয়ে, আমরা পাঁচটি ভাষা এবং বিভিন্ন টক্সিসিটি ক্যাটাগরিতে ভয়েস টক্সিসিটি ক্লাসিফিকেশনে উন্নতি দেখিয়েছি।
