Roblox Studio के लिए एजेंटिक AI सहायकों का बेंचमार्क करने हेतु OpenGameEval का उपयोग
AI सहायक प्रदर्शन का मूल्यांकन करने के लिए पहला Roblox स्टूडियो-नेटिव मूल्यांकन फ्रेमवर्क और बेंचमार्क

चुनौती
निर्माता रोब्लॉक्स अनुभव के विकास को गति देने के लिए रोब्लॉक्स स्टूडियो के एआई असिस्टेंट का लाभ उठाते हैं, लेकिन यह मूल्यांकन करना कि एआई असिस्टेंट और इसके अंतर्निहित बड़े भाषा मॉडल (एलएलएम) इंटरैक्टिव विकास कार्यों पर कितनी अच्छी तरह से प्रदर्शन करते हैं, एक चुनौती बनी हुई है। जहाँ पारंपरिक कोडिंग और एजेंटिक बेंचमार्क अलग-थलग, स्टेटलेस (stateless) कार्यों पर ध्यान केंद्रित करते हैं, वहीं Roblox विकास वर्कफ़्लो को ऐसे उद्देश्य-निर्मित मूल्यांकन विधियों की आवश्यकता होती है जो 3D पदानुक्रमों में तर्क करने, मल्टीप्लेयर क्लाइंट-सर्वर इंटरैक्शन को प्रबंधित करने, और एक स्टेटफुल (stateful) दुनिया में बदलाव करने जैसे कार्यों पर प्रदर्शन को मापती हैं।
इस चुनौती का समाधान करने के लिए, हम OpenGameEval पेश कर रहे हैं, जो एक ओपन-सोर्स मूल्यांकन फ्रेमवर्क और नेटिव बेंचमार्क डेटासेट है जो एक पुन: उत्पन्न करने योग्य Roblox Studio वातावरण में LLM-आधारित AI असिस्टेंट के प्रदर्शन का मूल्यांकन करता है। हमें उम्मीद है कि OpenGameEval, अपने सार्वजनिक लीडरबोर्ड के साथ, व्यापक AI अनुसंधान समुदाय के लिए टूल उपयोग, एजेंटिक तर्क, और दीर्घकालिक कार्य समाधान से संबंधित मुख्य मॉडल क्षमताओं का मूल्यांकन करने के लिए एक अनूठा परीक्षण मैदान प्रदान करेगा।

समाधान
ओपनगेमएवल मूल्यांकन फ्रेमवर्क को रॉब्लॉक्स डेवलपमेंट वातावरण की नकल करने के लिए बनाया गया है। प्रत्येक मूल्यांकन एक ऐसे वातावरण में निष्पादित किया जाता है जो रॉब्लॉक्स स्टूडियो में संपादन और खेलने के समय के व्यवहार का अनुकरण करता है। यह सुनिश्चित करता है कि अवलोकित व्यवहार, जैसे भौतिकी, नेटवर्किंग, और मल्टीप्लेयर इंटरैक्शन, एक निर्माता या खिलाड़ी द्वारा अनुभव किए जाने वाले व्यवहार के समान ही हो।
यह फ्रेमवर्क इनपुट सिमुलेशन को शामिल करता है, जिससे हम उन विकास कार्यों का मूल्यांकन करने के लिए आवश्यक जटिल खिलाड़ी इंटरैक्शन (जैसे, बटन क्लिक, कीबोर्ड इनपुट, और कैमरा हेरफेर) की प्रोग्रामेटिक रूप से नकल कर सकते हैं।
पूरा मूल्यांकन आर्किटेक्चर एक एकीकृत, उपयोग में आसान एपीआई के पीछे समाहित है। यह एब्स्ट्रैक्शन शोध भागीदारों को अंतर्निहित वातावरण हार्नेस को संशोधित किए बिना, समान बेंचमार्क कार्यों को निष्पादित करने वाले विविध एलएलएम-आधारित एजेंटिक सिस्टम की बेंचमार्किंग करने की अनुमति देता है।

ओपनगेमएवल बेंचमार्क डेटासेट
ओपनगेमएवल बेंचमार्क डेटासेट 47 परीक्षण मामलों का एक ओपन-सोर्स, मैन्युअल रूप से क्यूरेट किया गया सूट है, जिसे इस फ्रेमवर्क पर एक कठोर, पुनरावृत्तिशील और पूरी तरह से मानव-सत्यापित प्रक्रिया के माध्यम से बनाया गया है। हम डोमेन विशेषज्ञों से प्रॉम्प्ट एकत्र करते हैं, एआई मॉडल को आवश्यक संदर्भ प्रदान करने के लिए अनुकूलित रॉब्लॉक्स अनुभव वातावरण बनाते हैं, मैन्युअल रूप से मूल्यांकन और प्रामाणिक समाधान बनाते हैं, और व्यापकता, सामान्यीकरण क्षमता और स्थिरता को सुनिश्चित करने के लिए सभी परिदृश्यों को व्यापक मानव समीक्षा के अधीन करते हैं।
प्रारंभिक रिलीज़ में सामान्य Roblox विकास कार्यों से प्राप्त परिदृश्य शामिल हैं, जिनमें गेम मैकेनिक्स, पर्यावरण निर्माण, कैरेक्टर एनिमेशन, इंटरफ़ेस डिज़ाइन और साउंड डिज़ाइन शामिल हैं। OpenGameEval बेंचमार्क निष्पादन योग्य यूनिट टेस्ट का उपयोग करता है, जो डेटासेट पर किसी मॉडल के प्रदर्शन को मापने के लिए अपनी स्कोरिंग पद्धति को pass@k, cons@k, और all@k जैसे उद्योग-मानक मेट्रिक्स के साथ संरेखित करता है। शोध भागीदार OpenGameEval रन से मूल्यांकन परिणाम प्राप्त करने के बाद इन मेट्रिक्स को स्वयं दोहरा सकते हैं।
आम फ़ंक्शन-स्तर की कोडिंग चुनौतियों के विपरीत, OpenGameEval मुख्य घटकों का एंड-टू-एंड परीक्षण सक्षम करता है। एक सफल मॉडल को कई अलग-अलग कौशलों में महारत हासिल करनी चाहिए, जैसे इंस्टेंस पदानुक्रम में नेविगेट करना, ऑब्जेक्ट की स्थिति का विश्लेषण करना, और पर्यावरण के भीतर संदर्भ से उपयोगकर्ता के इरादे का पता लगाना।
बहु-चरणीय कार्य और संदर्भगत भिन्नता
रॉब्लॉक्स कोडिंग कार्यों के लिए अक्सर किसी अनुभव में मौजूदा संदर्भ को नेविगेट करने और वांछित परिणाम प्राप्त करने के लिए कई अंतर्संबंधित स्क्रिप्ट और इंस्टेंस की जांच करने हेतु कई चरणों की आवश्यकता होती है। नीचे दिए गए उदाहरण में, OpenGameEval एक वास्तविक गेम इंस्टेंस वातावरण का प्रतिनिधित्व करने वाले सैंडबॉक्स के भीतर कई कारकों का सत्यापन करता है ताकि यह सुनिश्चित हो सके कि कोई मॉडल कई संबंधित स्क्रिप्ट, क्लाइंट/सर्वर इंटरैक्शन, और प्रॉम्प्ट के मूल इरादे को उचित रूप से ध्यान में रख सकता है।
उपयोगकर्ता प्रॉम्प्ट: एक स्वास्थ्य पुनर्जनन प्रणाली लागू करें जो क्षति लेने के दो सेकंड बाद शुरू होती है और प्रति सेकंड 10 स्वास्थ्य पुनर्जनित करती है। प्लेसफ़ाइल संदर्भ: हथियारों, टीमों और मुख्य खेल तंत्रों के साथ पहले से ही स्थापित एक लेजर टैग अनुभव। अपेक्षित तर्क प्रक्रिया के चरण:
सत्यापनीय मूल्यांकन: कार्यकारी परीक्षण (सैंडबॉक्स्ड गेम इंस्टेंस में चलाया गया) परीक्षण खिलाड़ी के लिए एक क्षति घटना को ट्रिगर करता है और सत्यापित करता है:
|

एक AI मॉडल की मजबूती और संदर्भगत समझ का प्रभावी ढंग से परीक्षण करने के लिए, कार्यों को विविध पर्यावरणीय परिस्थितियों में प्रस्तुत किया जाता है। उदाहरण के लिए, "चार-तरफ़ा ट्रैफ़िक लाइट का स्क्रिप्टिंग" कार्य में विकास वातावरण की प्रारंभिक स्थिति के आधार पर तीन संदर्भगत भिन्नताएँ शामिल हैं।
उपयोगकर्ता प्रॉम्प्ट: एक साधारण चार-तरफ़ा ट्रैफ़िक लाइट के लिए मेरे लिए एक स्क्रिप्ट लिखें। विविधीकरण 1: केवल एक बेसप्लेट वाली एक खाली प्लेसफ़ाइल। स्क्रिप्ट के बिना TrafficLight नामक एक ट्रैफ़िक लाइट मॉडल उपलब्ध है। मॉडल को TrafficLight मॉडल के विभिन्न हिस्सों का अन्वेषण करने और ऑन/ऑफ स्थिति को टॉगल करने का तरीका खोजने की आवश्यकता है। विविधीकरण 2: उपनगरीय सेटअप वाली एक प्लेसफ़ाइल। स्क्रिप्ट के बिना ट्रैफ़िक सिग्नल नामक कई ट्रैफ़िक लाइट मॉडल उपलब्ध हैं। मॉडल को पहले अनुभव में अन्य उदाहरणों के बीच ट्रैफ़िक लाइट्स की सही पहचान करने के लिए खोज करनी होगी। ट्रैफ़िक लाइट मॉडल वेरिएंट 1 की तुलना में एक अलग लॉजिक के साथ संरचित हैं, और मॉडल को इस अनुभव के लिए एक अनूठा समाधान लागू करना होगा। विविधता 3: उपनगरीय सेटअप वाली एक प्लेसफ़ाइल। कई ट्रैफ़िक लाइट और पैदल यात्री सिग्नल मॉडल उपलब्ध हैं। जबकि ट्रैफ़िक लाइट्स के लिए स्क्रिप्ट हटा दी गई हैं, पैदल यात्री सिग्नल के लिए स्क्रिप्ट बनी हुई हैं। मॉडल को ट्रैफ़िक लाइट और पैदल यात्री संकेतों के बीच अंतर की पहचान करने और सही ऑब्जेक्ट्स में बदलाव करने की आवश्यकता है। क्या पैदल यात्री संकेतों का अस्तित्व मॉडल को भ्रमित करता है या उसकी मदद करता है? |


हम विभिन्न संदर्भों और जटिलता के स्तरों वाले अलग-अलग वातावरणों में समान दिखने वाले कार्यों पर मॉडलों के व्यवहार को समझने में रुचि रखते हैं।
प्रारंभिक परिणाम
OpenGameEval बेंचमार्क इंटरैक्टिव विकास में एआई सहायकों की वर्तमान स्थिति का निदान करने के लिए अनुभवजन्य डेटा प्रदान करता है। परीक्षण मामलों को परमाणु संचालन में क्षमताओं और उन संचालनों में जो बहु-चरणीय संदर्भगत तर्क की आवश्यकता होती है, के बीच अंतर करने के लिए डिज़ाइन किया गया है।
हमारी प्रारंभिक परीक्षण से पता चला कि मॉडल आम तौर पर परमाणु संचालन (atomic operations) में तो माहिर हैं, लेकिन संदर्भगत तर्क (contextual reasoning) में संघर्ष करते हैं। वे एकल, प्रत्यक्ष उदाहरण हेरफेर (single, direct instance manipulation) की आवश्यकता वाले कार्यों में सबसे अधिक सफलता दर प्राप्त करते हैं, जैसे कि एक कण उत्सर्जक (particle emitter) सेट करना या किसी खिलाड़ी की जंप पावर (jump power) को संशोधित करना। अग्रणी मॉडल लगभग-परिपूर्ण सफलता का प्रदर्शन करते हैं, जो सिंटैक्टिक कोड जनरेशन (syntactic code generation) और बुनियादी एपीआई ज्ञान (basic API knowledge) में उनकी प्रवीणता को साबित करता है।
इसके विपरीत, समन्वित कार्रवाई, संदर्भगत फ़िल्टरिंग, और गहरे एपीआई एकीकरण की मांग करने वाले कार्यों में एक बड़ी कमी बनी हुई है। स्वास्थ्य पुनर्जनन प्रणाली और ऊपर दिए गए चार-तरफ़ा ट्रैफ़िक लाइट जैसे उदाहरण, सभी मॉडलों में बहुत कम पास@k स्कोर देते रहते हैं।
तेज़ विकास
जैसे-जैसे मॉडल विकसित होते जा रहे हैं, हम उम्मीद करते हैं कि ये अंतर कम हो जाएँगे, लेकिन हमने पहले ही दिलचस्प विकास देखे हैं। एक मूल्यांकन कार्य में जो मॉडल से "क्यूब की तरह रोब्लॉक्स लोगो को हरा करने" के लिए कहता है, हमने शुरू में देखा कि मॉडल सार्वभौमिक रूप से विफल हो गए क्योंकि लक्ष्य वस्तु के नाम में स्पष्ट रूप से लोगो या रोब्लॉक्स शब्द शामिल नहीं था।

हाल के मूल्यांकन से पता चलता है कि कुछ मॉडल अब सरल कीवर्ड मिलान से परे संरचनात्मक तर्क का उपयोग करके, केवल नाम ही नहीं बल्कि गुणों सहित निकटतम उदाहरणों की जांच और समन्वित अनुमान के माध्यम से "Roblox लोगो" का प्रतिनिधित्व करने वाली वस्तु की पहचान करके इस मामले को सफलतापूर्वक हल कर रहे हैं।
आगे क्या?
हम एआई के क्षेत्र में हो रही तीव्र प्रगति को ट्रैक करने के लिए ओपनगेमइवैल (OpenGameEval) का लगातार विस्तार करने और उसे बनाए रखने के लिए प्रतिबद्ध हैं। वर्तमान ओपनगेमइवैल फ्रेमवर्क और बेंचमार्क केवल एक नींव हैं। हमारा रणनीतिक रोडमैप तीन मुख्य लक्ष्यों पर केंद्रित है ताकि यह सुनिश्चित हो सके कि यह प्लेटफ़ॉर्म रोब्लॉक्स स्टूडियो एजेंटिक एआई असिस्टेंट मूल्यांकन के लिए मानक बना रहे:
- प्रदर्शन पारदर्शिता के माध्यम से निर्माताओं को सशक्त बनाना: हम लीडरबोर्ड और बेंचमार्क डेटासेट को नियमित रूप से अपडेट करेंगे और साथ ही स्पष्ट, पारदर्शी सारांश भी प्रदान करेंगे जो निर्माताओं को मॉडल की तुलना करने और कोड जनरेशन, एसेट इन्सर्शन, और टूल ऑर्केस्ट्रेशन में प्रदर्शन को समझने में मदद करते हैं।
- अनुसंधान और विकास को गति दें: हम मूल्यांकन को मानकीकृत करने के लिए एपीआई एडाप्टर को बनाए रखेंगे और उसका विस्तार करेंगे, जिससे अनुसंधान भागीदारों को अगली पीढ़ी के एआई सहायकों को विकसित करने के लिए तेज़, बाधारहित, पुन:प्रजन्य बेंचमार्क चलाने में सक्षम बनाया जा सके।
- एक समुदाय-संचालित दृष्टिकोण अपनाएँ: हम वास्तविक-विश्व के क्रिएटर इरादों को एकीकृत करना जारी रखेंगे और समुदाय के योगदानों का सक्रिय रूप से अनुरोध करेंगे ताकि यह सुनिश्चित हो सके कि बेंचमार्क अत्याधुनिक Roblox विकास और उन्नत एआई क्षमताओं का प्रतिनिधित्व करता रहे।
मिलकर, यह फ्रेमवर्क, डेटासेट, और सार्वजनिक लीडरबोर्ड OpenGameEval को Roblox डेवलपमेंट में एआई-संचालित रचनाओं का मूल्यांकन करने के लिए एक पारदर्शी, सहयोगात्मक नींव बनाते हैं, जो पूरे क्रिएटर समुदाय को प्रगति मापने, अंतर्दृष्टि साझा करने, और बेहतर असिस्टेंट बनाने में मदद करते हैं।


