इस साइट की सामग्री का अनुवाद कृत्रिम बुद्धिमत्ता (AI) या मशीन अनुवाद तकनीक का उपयोग करके किया गया है, और इसमें त्रुटियाँ हो सकती हैं.

Skip to content

Roblox Studio के लिए एजेंटिक AI सहायकों का बेंचमार्क करने हेतु OpenGameEval का उपयोग

AI सहायक प्रदर्शन का मूल्यांकन करने के लिए पहला Roblox स्टूडियो-नेटिव मूल्यांकन फ्रेमवर्क और बेंचमार्क

SEO image for Using OpenGameEval to Benchmark Agentic AI Assistants for Roblox Studio

चुनौती 

निर्माता रोब्लॉक्स अनुभव के विकास को गति देने के लिए रोब्लॉक्स स्टूडियो के एआई असिस्टेंट का लाभ उठाते हैं, लेकिन यह मूल्यांकन करना कि एआई असिस्टेंट और इसके अंतर्निहित बड़े भाषा मॉडल (एलएलएम) इंटरैक्टिव विकास कार्यों पर कितनी अच्छी तरह से प्रदर्शन करते हैं, एक चुनौती बनी हुई है। जहाँ पारंपरिक कोडिंग और एजेंटिक बेंचमार्क अलग-थलग, स्टेटलेस (stateless) कार्यों पर ध्यान केंद्रित करते हैं, वहीं Roblox विकास वर्कफ़्लो को ऐसे उद्देश्य-निर्मित मूल्यांकन विधियों की आवश्यकता होती है जो 3D पदानुक्रमों में तर्क करने, मल्टीप्लेयर क्लाइंट-सर्वर इंटरैक्शन को प्रबंधित करने, और एक स्टेटफुल (stateful) दुनिया में बदलाव करने जैसे कार्यों पर प्रदर्शन को मापती हैं।

इस चुनौती का समाधान करने के लिए, हम OpenGameEval पेश कर रहे हैं, जो एक ओपन-सोर्स मूल्यांकन फ्रेमवर्क और नेटिव बेंचमार्क डेटासेट है जो एक पुन: उत्पन्न करने योग्य Roblox Studio वातावरण में LLM-आधारित AI असिस्टेंट के प्रदर्शन का मूल्यांकन करता है। हमें उम्मीद है कि OpenGameEval, अपने सार्वजनिक लीडरबोर्ड के साथ, व्यापक AI अनुसंधान समुदाय के लिए टूल उपयोग, एजेंटिक तर्क, और दीर्घकालिक कार्य समाधान से संबंधित मुख्य मॉडल क्षमताओं का मूल्यांकन करने के लिए एक अनूठा परीक्षण मैदान प्रदान करेगा।

OpenGameEval का लीडरबोर्ड Roblox विकास के लिए मॉडल की प्रभावशीलता का एक वर्तमान स्नैपशॉट प्रदान करता है। 

समाधान

ओपनगेमएवल मूल्यांकन फ्रेमवर्क को रॉब्लॉक्स डेवलपमेंट वातावरण की नकल करने के लिए बनाया गया है। प्रत्येक मूल्यांकन एक ऐसे वातावरण में निष्पादित किया जाता है जो रॉब्लॉक्स स्टूडियो में संपादन और खेलने के समय के व्यवहार का अनुकरण करता है। यह सुनिश्चित करता है कि अवलोकित व्यवहार, जैसे भौतिकी, नेटवर्किंग, और मल्टीप्लेयर इंटरैक्शन, एक निर्माता या खिलाड़ी द्वारा अनुभव किए जाने वाले व्यवहार के समान ही हो। 

यह फ्रेमवर्क इनपुट सिमुलेशन को शामिल करता है, जिससे हम उन विकास कार्यों का मूल्यांकन करने के लिए आवश्यक जटिल खिलाड़ी इंटरैक्शन (जैसे, बटन क्लिक, कीबोर्ड इनपुट, और कैमरा हेरफेर) की प्रोग्रामेटिक रूप से नकल कर सकते हैं।

पूरा मूल्यांकन आर्किटेक्चर एक एकीकृत, उपयोग में आसान एपीआई के पीछे समाहित है। यह एब्स्ट्रैक्शन शोध भागीदारों को अंतर्निहित वातावरण हार्नेस को संशोधित किए बिना, समान बेंचमार्क कार्यों को निष्पादित करने वाले विविध एलएलएम-आधारित एजेंटिक सिस्टम की बेंचमार्किंग करने की अनुमति देता है।

undefined

ओपनगेमएवल बेंचमार्क डेटासेट

ओपनगेमएवल बेंचमार्क डेटासेट 47 परीक्षण मामलों का एक ओपन-सोर्स, मैन्युअल रूप से क्यूरेट किया गया सूट है, जिसे इस फ्रेमवर्क पर एक कठोर, पुनरावृत्तिशील और पूरी तरह से मानव-सत्यापित प्रक्रिया के माध्यम से बनाया गया है। हम डोमेन विशेषज्ञों से प्रॉम्प्ट एकत्र करते हैं, एआई मॉडल को आवश्यक संदर्भ प्रदान करने के लिए अनुकूलित रॉब्लॉक्स अनुभव वातावरण बनाते हैं, मैन्युअल रूप से मूल्यांकन और प्रामाणिक समाधान बनाते हैं, और व्यापकता, सामान्यीकरण क्षमता और स्थिरता को सुनिश्चित करने के लिए सभी परिदृश्यों को व्यापक मानव समीक्षा के अधीन करते हैं।  

प्रारंभिक रिलीज़ में सामान्य Roblox विकास कार्यों से प्राप्त परिदृश्य शामिल हैं, जिनमें गेम मैकेनिक्स, पर्यावरण निर्माण, कैरेक्टर एनिमेशन, इंटरफ़ेस डिज़ाइन और साउंड डिज़ाइन शामिल हैं। OpenGameEval बेंचमार्क निष्पादन योग्य यूनिट टेस्ट का उपयोग करता है, जो डेटासेट पर किसी मॉडल के प्रदर्शन को मापने के लिए अपनी स्कोरिंग पद्धति को pass@k, cons@k, और all@k जैसे उद्योग-मानक मेट्रिक्स के साथ संरेखित करता है। शोध भागीदार OpenGameEval रन से मूल्यांकन परिणाम प्राप्त करने के बाद इन मेट्रिक्स को स्वयं दोहरा सकते हैं।

आम फ़ंक्शन-स्तर की कोडिंग चुनौतियों के विपरीत, OpenGameEval मुख्य घटकों का एंड-टू-एंड परीक्षण सक्षम करता है। एक सफल मॉडल को कई अलग-अलग कौशलों में महारत हासिल करनी चाहिए, जैसे इंस्टेंस पदानुक्रम में नेविगेट करना, ऑब्जेक्ट की स्थिति का विश्लेषण करना, और पर्यावरण के भीतर संदर्भ से उपयोगकर्ता के इरादे का पता लगाना।

बहु-चरणीय कार्य और संदर्भगत भिन्नता 

रॉब्लॉक्स कोडिंग कार्यों के लिए अक्सर किसी अनुभव में मौजूदा संदर्भ को नेविगेट करने और वांछित परिणाम प्राप्त करने के लिए कई अंतर्संबंधित स्क्रिप्ट और इंस्टेंस की जांच करने हेतु कई चरणों की आवश्यकता होती है। नीचे दिए गए उदाहरण में, OpenGameEval एक वास्तविक गेम इंस्टेंस वातावरण का प्रतिनिधित्व करने वाले सैंडबॉक्स के भीतर कई कारकों का सत्यापन करता है ताकि यह सुनिश्चित हो सके कि कोई मॉडल कई संबंधित स्क्रिप्ट, क्लाइंट/सर्वर इंटरैक्शन, और प्रॉम्प्ट के मूल इरादे को उचित रूप से ध्यान में रख सकता है।  

उपयोगकर्ता प्रॉम्प्ट: 

एक स्वास्थ्य पुनर्जनन प्रणाली लागू करें जो क्षति लेने के दो सेकंड बाद शुरू होती है और प्रति सेकंड 10 स्वास्थ्य पुनर्जनित करती है।

प्लेसफ़ाइल संदर्भ:

हथियारों, टीमों और मुख्य खेल तंत्रों के साथ पहले से ही स्थापित एक लेजर टैग अनुभव।

अपेक्षित तर्क प्रक्रिया के चरण: 

  1. प्रसंग तैयार करें: विभिन्न खोज उपकरणों के साथ अनुभव का अन्वेषण करें, जिसके लिए अक्सर दायरे समायोजित करते हुए कई खोज चरणों की आवश्यकता होती है: 
    1. क्षति और खिलाड़ी स्वास्थ्य पर मौजूदा स्क्रिप्ट्स की पहचान करें, और तर्क को समझें।
    2. स्वास्थ्य पुनर्जनन स्क्रिप्ट जोड़ने के लिए सबसे उपयुक्त स्थान का तर्क करें (उदाहरण के लिए, सर्वर पर या क्लाइंट पर? मुख्य गेम स्क्रिप्ट में एक अनुभाग के रूप में या एक अलग खिलाड़ी स्क्रिप्ट के रूप में?)। 
  2. अमलीकरण: खिलाड़ी की स्वास्थ्य को नियंत्रित करने के लिए उपयुक्त एपीआई का उपयोग करके लुओ (Luau) कोड लिखें। स्क्रिप्ट को निम्नलिखित करने की आवश्यकता है: 
    1. पुनर्जनन की आवश्यकता कब होती है और पुनर्जनन कैसे होना चाहिए, इसका सही समय निर्धारित करें। 
    2. सभी क्षति प्रकारों के लिए सामान्यीकृत हो, किसी विशिष्ट क्षति स्क्रिप्ट तक सीमित न हो।

सत्यापनीय मूल्यांकन: 

कार्यकारी परीक्षण (सैंडबॉक्स्ड गेम इंस्टेंस में चलाया गया) परीक्षण खिलाड़ी के लिए एक क्षति घटना को ट्रिगर करता है और सत्यापित करता है:

  1. स्वास्थ्य पुनर्जनन सर्वर पर सही ढंग से संभाला जाता है और क्लाइंट पर दिखाई देता है।
  2. पुनर्जनन दो सेकंड की देरी से पहले शुरू नहीं होता है। 
  3. स्वास्थ्य प्रति सेकंड 10 स्वास्थ्य की दर से पुनर्जीवित होता है।
undefined

एक AI मॉडल की मजबूती और संदर्भगत समझ का प्रभावी ढंग से परीक्षण करने के लिए, कार्यों को विविध पर्यावरणीय परिस्थितियों में प्रस्तुत किया जाता है। उदाहरण के लिए, "चार-तरफ़ा ट्रैफ़िक लाइट का स्क्रिप्टिंग" कार्य में विकास वातावरण की प्रारंभिक स्थिति के आधार पर तीन संदर्भगत भिन्नताएँ शामिल हैं। 

उपयोगकर्ता प्रॉम्प्ट: 

एक साधारण चार-तरफ़ा ट्रैफ़िक लाइट के लिए मेरे लिए एक स्क्रिप्ट लिखें।

विविधीकरण 1:

केवल एक बेसप्लेट वाली एक खाली प्लेसफ़ाइल। स्क्रिप्ट के बिना TrafficLight नामक एक ट्रैफ़िक लाइट मॉडल उपलब्ध है। 

मॉडल को TrafficLight मॉडल के विभिन्न हिस्सों का अन्वेषण करने और ऑन/ऑफ स्थिति को टॉगल करने का तरीका खोजने की आवश्यकता है। 

विविधीकरण 2:

उपनगरीय सेटअप वाली एक प्लेसफ़ाइल। स्क्रिप्ट के बिना ट्रैफ़िक सिग्नल नामक कई ट्रैफ़िक लाइट मॉडल उपलब्ध हैं। 

मॉडल को पहले अनुभव में अन्य उदाहरणों के बीच ट्रैफ़िक लाइट्स की सही पहचान करने के लिए खोज करनी होगी। ट्रैफ़िक लाइट मॉडल वेरिएंट 1 की तुलना में एक अलग लॉजिक के साथ संरचित हैं, और मॉडल को इस अनुभव के लिए एक अनूठा समाधान लागू करना होगा। 

विविधता 3:

उपनगरीय सेटअप वाली एक प्लेसफ़ाइल। कई ट्रैफ़िक लाइट और पैदल यात्री सिग्नल मॉडल उपलब्ध हैं। जबकि ट्रैफ़िक लाइट्स के लिए स्क्रिप्ट हटा दी गई हैं, पैदल यात्री सिग्नल के लिए स्क्रिप्ट बनी हुई हैं। 

मॉडल को ट्रैफ़िक लाइट और पैदल यात्री संकेतों के बीच अंतर की पहचान करने और सही ऑब्जेक्ट्स में बदलाव करने की आवश्यकता है। क्या पैदल यात्री संकेतों का अस्तित्व मॉडल को भ्रमित करता है या उसकी मदद करता है?

अपरिभाषित
बेसप्लेट में ट्रैफिक लाइट।
अपरिभाषित
एसेट्स और स्क्रिप्ट्स के साथ एक अनुभव में ट्रैफ़िक लाइट।

हम विभिन्न संदर्भों और जटिलता के स्तरों वाले अलग-अलग वातावरणों में समान दिखने वाले कार्यों पर मॉडलों के व्यवहार को समझने में रुचि रखते हैं।

प्रारंभिक परिणाम

OpenGameEval बेंचमार्क इंटरैक्टिव विकास में एआई सहायकों की वर्तमान स्थिति का निदान करने के लिए अनुभवजन्य डेटा प्रदान करता है। परीक्षण मामलों को परमाणु संचालन में क्षमताओं और उन संचालनों में जो बहु-चरणीय संदर्भगत तर्क की आवश्यकता होती है, के बीच अंतर करने के लिए डिज़ाइन किया गया है। 

हमारी प्रारंभिक परीक्षण से पता चला कि मॉडल आम तौर पर परमाणु संचालन (atomic operations) में तो माहिर हैं, लेकिन संदर्भगत तर्क (contextual reasoning) में संघर्ष करते हैं। वे एकल, प्रत्यक्ष उदाहरण हेरफेर (single, direct instance manipulation) की आवश्यकता वाले कार्यों में सबसे अधिक सफलता दर प्राप्त करते हैं, जैसे कि एक कण उत्सर्जक (particle emitter) सेट करना या किसी खिलाड़ी की जंप पावर (jump power) को संशोधित करना। अग्रणी मॉडल लगभग-परिपूर्ण सफलता का प्रदर्शन करते हैं, जो सिंटैक्टिक कोड जनरेशन (syntactic code generation) और बुनियादी एपीआई ज्ञान (basic API knowledge) में उनकी प्रवीणता को साबित करता है।

इसके विपरीत, समन्वित कार्रवाई, संदर्भगत फ़िल्टरिंग, और गहरे एपीआई एकीकरण की मांग करने वाले कार्यों में एक बड़ी कमी बनी हुई है। स्वास्थ्य पुनर्जनन प्रणाली और ऊपर दिए गए चार-तरफ़ा ट्रैफ़िक लाइट जैसे उदाहरण, सभी मॉडलों में बहुत कम पास@k स्कोर देते रहते हैं।

तेज़ विकास

जैसे-जैसे मॉडल विकसित होते जा रहे हैं, हम उम्मीद करते हैं कि ये अंतर कम हो जाएँगे, लेकिन हमने पहले ही दिलचस्प विकास देखे हैं। एक मूल्यांकन कार्य में जो मॉडल से "क्यूब की तरह रोब्लॉक्स लोगो को हरा करने" के लिए कहता है, हमने शुरू में देखा कि मॉडल सार्वभौमिक रूप से विफल हो गए क्योंकि लक्ष्य वस्तु के नाम में स्पष्ट रूप से लोगो या रोब्लॉक्स शब्द शामिल नहीं था। 

undefined

हाल के मूल्यांकन से पता चलता है कि कुछ मॉडल अब सरल कीवर्ड मिलान से परे संरचनात्मक तर्क का उपयोग करके, केवल नाम ही नहीं बल्कि गुणों सहित निकटतम उदाहरणों की जांच और समन्वित अनुमान के माध्यम से "Roblox लोगो" का प्रतिनिधित्व करने वाली वस्तु की पहचान करके इस मामले को सफलतापूर्वक हल कर रहे हैं। 

आगे क्या? 

हम एआई के क्षेत्र में हो रही तीव्र प्रगति को ट्रैक करने के लिए ओपनगेमइवैल (OpenGameEval) का लगातार विस्तार करने और उसे बनाए रखने के लिए प्रतिबद्ध हैं। वर्तमान ओपनगेमइवैल फ्रेमवर्क और बेंचमार्क केवल एक नींव हैं। हमारा रणनीतिक रोडमैप तीन मुख्य लक्ष्यों पर केंद्रित है ताकि यह सुनिश्चित हो सके कि यह प्लेटफ़ॉर्म रोब्लॉक्स स्टूडियो एजेंटिक एआई असिस्टेंट मूल्यांकन के लिए मानक बना रहे:

  • प्रदर्शन पारदर्शिता के माध्यम से निर्माताओं को सशक्त बनाना: हम लीडरबोर्ड और बेंचमार्क डेटासेट को नियमित रूप से अपडेट करेंगे और साथ ही स्पष्ट, पारदर्शी सारांश भी प्रदान करेंगे जो निर्माताओं को मॉडल की तुलना करने और कोड जनरेशन, एसेट इन्सर्शन, और टूल ऑर्केस्ट्रेशन में प्रदर्शन को समझने में मदद करते हैं।
  • अनुसंधान और विकास को गति दें: हम मूल्यांकन को मानकीकृत करने के लिए एपीआई एडाप्टर को बनाए रखेंगे और उसका विस्तार करेंगे, जिससे अनुसंधान भागीदारों को अगली पीढ़ी के एआई सहायकों को विकसित करने के लिए तेज़, बाधारहित, पुन:प्रजन्य बेंचमार्क चलाने में सक्षम बनाया जा सके।
  • एक समुदाय-संचालित दृष्टिकोण अपनाएँ: हम वास्तविक-विश्व के क्रिएटर इरादों को एकीकृत करना जारी रखेंगे और समुदाय के योगदानों का सक्रिय रूप से अनुरोध करेंगे ताकि यह सुनिश्चित हो सके कि बेंचमार्क अत्याधुनिक Roblox विकास और उन्नत एआई क्षमताओं का प्रतिनिधित्व करता रहे।

मिलकर, यह फ्रेमवर्क, डेटासेट, और सार्वजनिक लीडरबोर्ड OpenGameEval को Roblox डेवलपमेंट में एआई-संचालित रचनाओं का मूल्यांकन करने के लिए एक पारदर्शी, सहयोगात्मक नींव बनाते हैं, जो पूरे क्रिएटर समुदाय को प्रगति मापने, अंतर्दृष्टि साझा करने, और बेहतर असिस्टेंट बनाने में मदद करते हैं।

धन्यवाद: OpenGameEval परियोजना Roblox की विभिन्न टीमों के बीच एक महत्वपूर्ण सहयोगात्मक प्रयास का परिणाम है। विशेष धन्यवाद Vlad Shcherban, Sean Dunigan और Jack Lu को, जिन्होंने मूल्यांकन हार्नेस बनाने में मदद की, और Isabella Ting और Brent Vincent को, जिनकी अंतर्दृष्टि इस रिलीज़ को आकार देने में महत्वपूर्ण रही। हम अपनी साझेदार टीमों और पूर्व टीम सदस्यों के प्रति गहराई से आभारी हैं, क्योंकि यह कार्य उनकी सामूहिक विशेषज्ञता और प्रतिबद्धता को दर्शाता है।