এই সাইটের বিষয়বস্তু কৃত্রিম বুদ্ধিমত্তা (AI) বা মেশিন অনুবাদ প্রযুক্তি ব্যবহার করে অনুবাদ করা হয়েছে এবং ত্রুটি থাকতে পারে।

Skip to content
Safety & Civility
Artificial Intelligence
Speech & Audio

স্পিচ-টেক্সট সারিবদ্ধতার মাধ্যমে বহুভাষিক ভয়েস টক্সিসিটি সনাক্তকরণ উন্নত করা

View Publication

Author

জোসেফ লিউ (রবলোক্স), মহেশ কুমার নন্দওয়ানা (রবলোক্স), জানে পিল্কোনেন (রবলোক্স), হানেস হেইকিনহেইমো (রবলোক্স), মরগ্যান ম্যাকগাইর (রবলোক্স)

Venue

ইন্টারস্পিচ ২০২৪

Abstract

ভয়েসের বিষাক্ততা শ্রেণীবিন্যাস প্রধানত বক্তৃতার অর্থগত বিষয়বস্তুর ওপর নির্ভর করে। আমরা একটি নতুন ফ্রেমওয়ার্ক প্রস্তাব করছি যা ক্রস-মোডাল লার্নিং ব্যবহার করে প্রশিক্ষণের সময় টেক্সটের সেম্যান্টিক এম্বেডিংকে মাল্টিলেবেল স্পিচ টক্সিসিটি ক্লাসিফায়ারে একত্রিত করে। এর ফলে প্রশিক্ষণের সময় আমরা টেক্সটভিত্তিক তথ্য অন্তর্ভুক্ত করতে পারি, অথচ ইনফারেন্সের সময় শুধুমাত্র অডিওই প্রয়োজন হয়। আমরা এই ফ্রেমওয়ার্কের কার্যকারিতা যাচাই করতে বাস্তব-বিশ্বের বৈশিষ্ট্যযুক্ত বৃহৎ-স্কেল ডেটাসেটে এই ক্লাসিফায়ারটি মূল্যায়ন করি। অ্যাবলেশন স্টাডির মাধ্যমে, আমরা দেখাই যে সাধারণ-উদ্দেশ্য সেম্যান্টিক টেক্সট এম্বেডিংসমূহ টক্সিসিটি ক্লাসিফিকেশনের জন্য সমৃদ্ধ এবং বক্তৃতার সাথে সামঞ্জস্যপূর্ণ। একাধিক ভাষায় ব্যাপক পরিসরে পরীক্ষা-নিরীক্ষা চালিয়ে, আমরা পাঁচটি ভাষা এবং বিভিন্ন টক্সিসিটি ক্যাটাগরিতে ভয়েস টক্সিসিটি ক্লাসিফিকেশনে উন্নতি দেখিয়েছি।