খুবই কঠোর, খুবই শক্তিশালী, খুবই বুদ্ধিমান: গতি নিয়ন্ত্রণ নীতিগুলির মৌলিক সমস্যাগুলি মূল্যায়ন
Author
Venue
এসসিএ ২০২৩
Abstract
ডিপ রিইনফোর্সমেন্ট লার্নিং (DRL) পদ্ধতিগুলো শারীরিকভাবে ভিত্তিক চরিত্রগুলির দক্ষ গতি সংশ্লেষণে চমকপ্রদ ফলাফল প্রদর্শন করেছে, এবং যদিও এই পদ্ধতিগুলো রেফারেন্স গতি অনুসরণ বা জটিল কাজ সম্পাদনে ভালো পারফর্ম করে, গতির স্বাভাবিকতা মূল্যায়ন করার সময় বেশ কিছু উদ্বেগ দেখা দেয়। এই প্রবন্ধে, আমরা DRL নিয়ন্ত্রণ নীতিগুলি দ্বারা উৎপন্ন চলাচলের স্বাভাবিকতা পরিমাপের জন্য নির্দিষ্ট পরিমাণগত মেট্রিক্সের প্রাথমিক গবেষণা পরিচালনা করি, যা শুধুমাত্র দৃশ্যমান চেহারার বাইরে যায়। বিশেষ করে, আমরা নিয়ন্ত্রণ নীতির কঠোরতা (stiffness) অধ্যয়ন করার প্রস্তাব দিই, কারণ এটি বাহ্যিক বিঘ্নের উপস্থিতিতে চরিত্রের আচরণকে প্রভাবিত করবে বলে আশা করা হচ্ছে। দ্বিতীয়ত, আমরা বলপ্রয়োগের (strength) জন্য দুটি বেসলাইন স্থাপন করি, যা মানব কর্মক্ষমতার তুলনায় জয়েন্ট টর্ক ব্যবহারের মূল্যায়ন করতে সহায়তা করে। তৃতীয়ত, নিয়ন্ত্রণ নীতিগুলির অস্বাভাবিক নির্ভুলতা এবং তা প্রকৃত মানব চলাফেরার সাথে কীভাবে তুলনীয় তা উদঘাটনের জন্য পরিবর্তনশীলতার (variability) অধ্যয়ন প্রস্তাব করছি। সারসংক্ষেপে, আমরা DRL পদ্ধতির মাধ্যমে তৈরি নিয়ন্ত্রণ নীতিগুলির স্বাভাবিকতা মূল্যায়নের জন্য পুনরাবৃত্তিমূলক পরিমাপ স্থাপন করতে চাই, এবং আমরা সর্বাধুনিক সিস্টেমগুলির তুলনামূলক ফলাফল উপস্থাপন করছি। শেষমেষ, এই দিকগুলিতে বাস্তববাদ উন্নত করার জন্য আমরা কিছু সহজ পরিবর্তন প্রস্তাব করছি।
