De content op deze site is vertaald met behulp van kunstmatige intelligentie (AI) of machinevertalingstechnologie en kan fouten bevatten.

Skip to content

OpenGameEval gebruiken om agentische AI-assistenten voor Roblox Studio te benchmarken

Het eerste Roblox Studio-specifieke evaluatiekader en benchmark voor het beoordelen van de prestaties van AI-assistenten

SEO image for Using OpenGameEval to Benchmark Agentic AI Assistants for Roblox Studio

De uitdaging 

Makers maken gebruik van de AI-assistent van Roblox Studio om de ontwikkeling van Roblox-ervaringen te versnellen, maar het blijft een uitdaging om te beoordelen hoe goed de AI-assistent en de onderliggende grote taalmodellen (LLM's) presteren bij interactieve ontwikkelingstaken. Terwijl traditionele coderings- en agentische benchmarks zich richten op geïsoleerde, stateloze taken, vereisen Roblox-ontwikkelingsworkflows speciaal ontwikkelde evaluatiemethoden die de prestaties meten bij taken zoals redeneren in 3D-hiërarchieën, het beheren van multiplayer-client-server-interacties en het aanbrengen van wijzigingen in een stateful wereld.

Om deze uitdaging aan te gaan, introduceren we OpenGameEval, een open-source evaluatieframework en native benchmarkdataset die de prestaties van op LLM gebaseerde AI-assistenten evalueert in een reproduceerbare Roblox Studio-omgeving. We hopen dat OpenGameEval, samen met het openbare klassement, een uniek testterrein zal bieden voor de bredere AI-onderzoeksgemeenschap om de kerncapaciteiten van modellen te evalueren met betrekking tot het gebruik van tools, agentisch redeneren en het oplossen van taken met een lange horizon.

Het klassement van OpenGameEval biedt een actueel overzicht van de effectiviteit van modellen voor Roblox-ontwikkeling. 

De oplossing

Het OpenGameEval-evaluatiekader is ontworpen om de Roblox-ontwikkelomgeving na te bootsen. Elke evaluatie wordt uitgevoerd in een omgeving die het bewerkings- en speeltijdgedrag in Roblox Studio simuleert. Dit zorgt ervoor dat het waargenomen gedrag, zoals fysica, netwerken en multiplayer-interactie, identiek is aan wat een maker of speler zou ervaren. 

Het raamwerk bevat inputsimulatie, waardoor we de complexe spelerinteracties die nodig zijn voor het evalueren van ontwikkelingstaken die gebruikersacties vereisen (bijv. klikken op knoppen, toetsenbordinvoer en camerabediening) programmatisch kunnen nabootsen.

De volledige evaluatiearchitectuur is ingekapseld achter een uniforme, gebruiksvriendelijke API. Deze abstractie stelt onderzoekspartners in staat om diverse op LLM gebaseerde agentische systemen te benchmarken die identieke benchmarktaken uitvoeren, zonder de onderliggende omgevingsharnas te wijzigen.

undefined

De OpenGameEval-benchmarkdataset

De OpenGameEval-benchmarkdataset is een open-source, handmatig samengestelde reeks van 47 testcases die bovenop dit framework is gebouwd via een rigoureus, iteratief en volledig door mensen geverifieerd proces. We verzamelen prompts van domeinexperts, bouwen op maat gemaakte Roblox-ervaringsomgevingen om de nodige context aan AI-modellen te bieden, maken handmatig evaluaties en gezaghebbende oplossingen, en onderwerpen alle scenario's aan een uitgebreide menselijke beoordeling om volledigheid, generaliseerbaarheid en stabiliteit te garanderen.  

De eerste release bevat scenario's die zijn afgeleid van veelvoorkomende Roblox-ontwikkelingstaken, waaronder spelmechanismen, het bouwen van omgevingen, karakteranimatie, interfaceontwerp en geluidsontwerp. De OpenGameEval-benchmark maakt gebruik van uitvoerbare unit-tests en stemt de scoringsmethodologie af op industriestandaard metrics zoals pass@k, cons@k en all@k om de prestaties van een model op de dataset te kwantificeren. Onderzoekspartners kunnen deze metrics zelf repliceren na het verzamelen van evaluatieresultaten uit OpenGameEval-runs.

In tegenstelling tot typische coderingsuitdagingen op functieniveau maakt OpenGameEval end-to-end-testen van kerncomponenten mogelijk. Een succesvol model moet verschillende specifieke vaardigheden beheersen, zoals het navigeren door de instantiehiërarchie, het analyseren van de objectstatus en het afleiden van de intentie van de gebruiker uit de context binnen de omgeving.

Meerstaps taken en contextuele variatie 

Roblox-codeertaken vereisen vaak meerdere stappen om door de bestaande context in een ervaring te navigeren en meerdere met elkaar verweven scripts en instanties te onderzoeken om een gewenst resultaat te bereiken. In het onderstaande voorbeeld verifieert OpenGameEval meerdere factoren binnen een sandbox die een echte game-instantieomgeving vertegenwoordigt, om ervoor te zorgen dat een model op de juiste manier rekening kan houden met meerdere gerelateerde scripts, client/server-interactie en de oorspronkelijke intentie van de prompt.  

Gebruikersprompt: 

Implementeer een gezondheidsregeneratiesysteem dat twee seconden na het oplopen van schade start en 10 gezondheid per seconde regenereert.

Placefile-context:

Een lasergame-ervaring waarbij wapens, teams en de belangrijkste spelmechanismen al zijn ingesteld.

Verwachte redeneringsstappen: 

  1. Contextualiseer: Verken de ervaring met verschillende zoektools, wat vaak meerdere zoekstappen vereist waarbij de zoekcriteria worden aangepast: 
    1. Identificeer bestaande scripts over schade en de gezondheid van spelers, en begrijp de logica.
    2. Bepaal de beste locatie om het script voor gezondheidsregeneratie toe te voegen (bijv. op de server of client? Als een sectie in het kernspelscript of als een apart spelerscript?). 
  2. Implementatie: Schrijf Luau-code met behulp van de juiste API's om de gezondheid van spelers te beïnvloeden. Het script moet: 
    1. Het juiste moment vastleggen waarop regeneratie nodig is, en hoe regeneratie moet plaatsvinden. 
    2. Toepasbaar zijn op alle soorten schade, niet beperkt tot een bepaald schadescript.

Verifieerbare evaluatie: 

De uitvoerbare test (uitgevoerd in de sandbox-game-instantie) activeert een schade-event voor de testspeler en controleert:

  1. Gezondheidsregeneratie wordt correct afgehandeld op de server en zichtbaar gemaakt op de client.
  2. Regeneratie begint niet vóór de vertraging van twee seconden. 
  3. De gezondheid regenereert met een snelheid van 10 gezondheidspunten per seconde.
undefined

Om de robuustheid en het contextuele begrip van een AI-model effectief te testen, worden taken gepresenteerd onder diverse omgevingsomstandigheden. De taak 'een vierwegverkeerslicht programmeren' omvat bijvoorbeeld drie contextuele variaties op basis van de begintoestand van de ontwikkelomgeving. 

Gebruikersprompt: 

Schrijf een script voor een eenvoudig vierwegverkeerslicht.

Variatie 1:

Een leeg plaatsbestand dat alleen een basisplaat bevat. Er is een verkeerslichtmodel met de naam TrafficLight beschikbaar zonder script. 

Het model moet verschillende onderdelen binnen het TrafficLight-model verkennen en een manier vinden om de aan/uit-status te schakelen. 

Variatie 2:

Een placefile met een voorstedelijke opstelling. Er zijn meerdere verkeerslichtmodellen met de naam Traffic Signal beschikbaar zonder scripts. 

Het model moet eerst de ervaring doorzoeken om de verkeerslichten correct te identificeren tussen andere instanties. De verkeerslichtmodellen zijn gestructureerd met een andere logica dan variant 1, en het model moet een oplossing implementeren die uniek is voor deze ervaring. 

Variant 3:

Een placefile met een voorstedelijke opstelling. Er zijn meerdere verkeerslicht- en voetgangerssignaalmodellen beschikbaar. Terwijl de scripts voor verkeerslichten zijn verwijderd, blijven de scripts voor voetgangerssignalen behouden. 

Het model moet het verschil tussen verkeerslichten en voetgangerssignalen identificeren en wijzigingen aanbrengen in de juiste objecten. Brengt de aanwezigheid van voetgangerssignalen het model in de war of helpt het juist?

niet gedefinieerd
Verkeerslicht in een basisplaat.
niet gedefinieerd
Verkeerslicht in een ervaring met assets en scripts.

We willen inzicht krijgen in het gedrag van modellen bij ogenschijnlijk vergelijkbare taken in verschillende omgevingen met variërende niveaus van context en complexiteit.

Eerste resultaten

De OpenGameEval-benchmark biedt empirische gegevens om de huidige stand van zaken van AI-assistenten in interactieve ontwikkeling te diagnosticeren. Testcases zijn ontworpen om onderscheid te maken tussen capaciteiten in atomaire bewerkingen en in bewerkingen die contextueel redeneren in meerdere stappen vereisen. 

Uit onze eerste tests bleek dat modellen over het algemeen uitblinken in atomaire bewerkingen, maar moeite hebben met contextueel redeneren. Ze behalen de hoogste slagingspercentages bij taken die een enkele, directe manipulatie van een instantie vereisen, zoals het instellen van een deeltjesemitter of het aanpassen van de sprongkracht van een speler. Toonaangevende modellen laten een bijna perfect succespercentage zien, wat hun vaardigheid in syntactische codegeneratie en basiskennis van API's aantoont.

Daar staat tegenover dat er een aanzienlijke kloof blijft bestaan bij taken die gecoördineerde actie, contextuele filtering en diepgaande API-integratie vereisen. Voorbeelden zoals het gezondheidsregeneratiesysteem en het vierwegverkeerslicht hierboven blijven voor alle modellen zeer lage pass@k-scores opleveren.

Snelle evolutie

Naarmate modellen zich blijven ontwikkelen, verwachten we dat deze hiaten zullen verdwijnen, maar we hebben al interessante ontwikkelingen gezien. Bij een evaluatietaak waarbij een model werd gevraagd om "het Roblox-logo in de vorm van een kubus groen te maken", zagen we aanvankelijk dat modellen over de hele linie faalden omdat de naam van het doelobject niet expliciet het woord logo of Roblox bevatte. 

undefined

Uit recentere evaluaties blijkt dat sommige modellen dit probleem nu met succes oplossen door verder te gaan dan eenvoudige trefwoordvergelijking en over te stappen op structureel redeneren, waarbij ze gebruikmaken van nauwkeurige inspectie van voorbeelden (inclusief eigenschappen, niet alleen de naam) en gecoördineerde inferentie om het object te identificeren dat het meest waarschijnlijk het "Roblox-logo" vertegenwoordigt. 

Wat is de volgende stap? 

We zetten ons in om OpenGameEval voortdurend uit te breiden en te onderhouden om de snelle vooruitgang op het gebied van AI bij te houden. Het huidige OpenGameEval-framework en de benchmark vormen slechts de basis. Onze strategische roadmap richt zich op drie kerndoelen om ervoor te zorgen dat het platform de standaard blijft voor de evaluatie van Roblox Studio Agentic AI Assistant:

  • Creators ondersteunen door middel van prestatietransparantie: We zullen het klassement en de benchmarkdataset regelmatig bijwerken en tegelijkertijd duidelijke, transparante samenvattingen bieden die creators helpen modellen te vergelijken en inzicht te krijgen in de prestaties op het gebied van codegeneratie, het invoegen van assets en tool-orkestratie.
  • Versnellen van onderzoek en ontwikkeling: We zullen de API-adapter onderhouden en uitbreiden om de evaluatie te standaardiseren, waardoor onderzoekspartners snelle, soepele en reproduceerbare benchmarks kunnen uitvoeren voor de ontwikkeling van AI-assistenten van de volgende generatie.
  • Een community-gedreven aanpak hanteren: We blijven de intenties van makers uit de praktijk integreren en vragen actief om bijdragen van de community om ervoor te zorgen dat de benchmark representatief blijft voor de allernieuwste Roblox-ontwikkelingen en de voortschrijdende AI-mogelijkheden.

Samen vormen het framework, de dataset en het openbare klassement OpenGameEval tot een transparante, collaboratieve basis voor het evalueren van AI-aangedreven creaties in Roblox-ontwikkeling, waardoor de hele community van makers vooruitgang kan meten, inzichten kan delen en betere assistenten kan bouwen.

Dankwoord: Het OpenGameEval-project is het resultaat van een aanzienlijke gezamenlijke inspanning van verschillende teams bij Roblox. Speciale dank gaat uit naar Vlad Shcherban, Sean Dunigan en Jack Lu, die hebben geholpen bij het bouwen van het evaluatieplatform, en naar Isabella Ting en Brent Vincent, wier inzichten van cruciaal belang waren voor het vormgeven van deze release. We zijn onze partnerteams en voormalige teamleden zeer dankbaar, aangezien dit werk een weerspiegeling is van hun gezamenlijke expertise en toewijding.