खूप कडक, खूप मजबूत, खूप हुशार: गती नियंत्रण धोरणांमधील मूलभूत समस्यांचे मूल्यांकन
Author
Venue
एससीए २०२३
Abstract
डीप रिइन्फोर्समेंट लर्निंग (DRL) पद्धतींनी भौतिकदृष्ट्या आधारित पात्रांच्या कौशल्यपूर्ण हालचालींच्या संश्लेषणासाठी प्रभावी निकाल सादर केले आहेत, आणि जरी या पद्धती संदर्भ हालचालींचा मागोवा घेणे किंवा जटिल कार्ये पार पाडणे या बाबतीत चांगली कामगिरी करतात, तरी हालचालींच्या नैसर्गिकतेचे मूल्यांकन करताना अनेक चिंता उद्भवतात. या पेपरमध्ये, आम्ही DRL नियंत्रण धोरणांद्वारे तयार होणाऱ्या हालचालींच्या नैसर्गिकतेचे त्यांच्या दृश्य स्वरूपापलीकडे मोजण्यासाठी विशिष्ट मात्रात्मक मेट्रिक्सचे प्राथमिक अध्ययन करतो. म्हणजेच, आम्ही नियंत्रण धोरणाच्या कडकपणाचा अभ्यास करण्याचा प्रस्ताव मांडतो, अशी अपेक्षा ठेवून की ते बाह्य व्यत्ययाच्या उपस्थितीत पात्र कसे वागते यावर परिणाम करेल. दुसरे म्हणजे, आम्ही सामर्थ्यासाठी दोन बेसलाइन स्थापित करतो ज्यामुळे मानवी कामगिरीच्या तुलनेत सांधे टॉर्कच्या वापराचे मूल्यांकन करता येते. तिसरे म्हणजे, नियंत्रण धोरणांच्या अस्वाभाविक अचूकतेचा उलगडा करण्यासाठी आणि ती प्रत्यक्ष मानवी हालचालीशी कशी तुलना करतात हे दाखवण्यासाठी आम्ही चंचलतेचा अभ्यास सुचवतो. एकंदरीत, आमचा उद्देश डीआरएल पद्धतींनी तयार केलेल्या नियंत्रण धोरणांच्या नैसर्गिकतेचे मूल्यांकन करण्यासाठी पुनरावृत्तीक्षम मापदंड स्थापन करणे आहे, आणि आम्ही अत्याधुनिक प्रणालींमधील तुलना सादर करतो. शेवटी, या अक्षांवर वास्तववाद सुधारण्यासाठी आम्ही सोप्या सुधारणा सुचवतो.
