Wie wir die Akzeptanz von KI-Code verdoppelt haben, indem wir Modellen beigebracht haben, wie Roblox-Ingenieure zu denken
Domänenorientierte Code-Intelligenz

Alle sind begeistert vom nächsten bahnbrechenden KI-Modell, doch das Geheimnis hinter der Verdopplung der Effektivität interner KI-Tools bei Roblox war kein neues Modell. Es lag in der Geschichte unserer Codebasis verborgen. Durch die Nutzung jahrelanger Code-Erfahrungen und Überprüfungen durch unsere Fachexperten konnten wir die Akzeptanzrate von KI-generierten Pull-Request-Vorschlägen (PR) bei einer Menge von 10.000 PRs von etwa 30 % auf über 60 % steigern und die Bewertungsgenauigkeit eines automatisierten Code-Bereinigungsprojekts im gleichen Zeitraum auf über 90 % erhöhen.
Die KI-Qualitätslücke schließen
Branchenweit werden 50 % bis 60 % der Programmierzeit für die Softwarewartung aufgewendet.1 Bei Roblox ist das nicht anders.
Auf dem Papier sind sich wiederholende Wartungsaufgaben mit klar definierten Anforderungen und einem begrenzten Problemraum perfekte Kandidaten für die KI-Automatisierung. In der Praxis hatten unsere KI-Assistenten jedoch Schwierigkeiten mit der Bewertungsgenauigkeit und der Akzeptanz durch die Entwickler.
Bei Roblox ist das Problem nicht die Leistungsfähigkeit, sondern der Kontext. Ein generisches Modell hat nicht zwei Jahrzehnte Roblox-Entwicklung durchlaufen. Es hat weder die 700.000 Pull-Anfragen gesehen, die wir in den letzten drei Jahren zusammengeführt haben, noch aus den 1,7 Millionen Code-Review-Kommentaren gelernt, in denen unsere erfahrensten Ingenieure unsere Codierungsstandards definieren und verteidigen.
KI-Assistenten, die diese Geschichte ignorieren, können das Vertrauen von Weltklasse-Ingenieuren nicht gewinnen. Obwohl die Hälfte der Roblox-Ingenieure KI-gestützte Assistenten einsetzt, werden nur etwa 20 % der KI-generierten Vorschläge nach menschlicher Überprüfung akzeptiert. Unsere vierteljährliche Umfrage zur technischen Produktivität spiegelt diese Realität wider. Die Ingenieure bewerten den Einfluss der KI auf die Produktivität mit 4,02 von 5 Punkten, das Vertrauen in die Codequalität der KI jedoch nur mit 3,09 von 5 Punkten. Kurz gesagt: KI hilft, aber das Vertrauen bleibt begrenzt, insbesondere bei älterem C++-Code und komplexeren Code-Bereichen.
Um diese Wissenslücke zu schließen, haben wir in eine agentische Code-Intelligence-Plattform investiert, die auf der eigenen Entwicklungshistorie von Roblox aufbaut, an Expertenbeispielen ausgerichtet ist und durch strenge Evaluierung validiert wurde. Diese Code-Intelligence-Plattform ist nicht nur darauf ausgelegt, Code-Vorschläge zu generieren, sondern auch, mit der institutionellen Tiefe eines Roblox-Ingenieurs zu iterieren.
Lernen von den besten Erfahrungen der Roblox-Entwickler
Der Engineering-Korpus von Roblox umfasst fast 20 Jahre an Commits, Designdokumenten und Produktionstelemetrie – ein einzigartig umfangreicher Datensatz, der festhält, wie sich unsere Systeme entwickelt haben und wie unsere Ingenieure schwierige Probleme gelöst haben.
Die Code-Intelligence-Plattform zielt darauf ab, diese Daten in einen strukturierten Wissensgraphen umzuwandeln – eine bedeutende technische Herausforderung. In einer riesigen, polyglotten Umgebung ist Code nicht nur Textdateien. Er ist ein komplexes Geflecht aus Build-Zielen, C++-Template-Instanziierungen und dynamischen Lua-Abhängigkeiten. Das bloße Parsen des Textes reicht nicht aus; das System muss die tiefen semantischen Beziehungen verstehen, die in der Codebasis selbst verborgen sind und spezifisch für unsere einzigartige Architektur sind.
Eine weitere Herausforderung ist die Rückverfolgung und zeitliche Abstimmung. Um über miteinander verbundene Systeme hinweg Schlussfolgerungen ziehen zu können, muss ein agentenbasiertes System statische Code-Repositorien mit verrauschten Laufzeit-Telemetriedaten verknüpfen und Millionen von Produktionssignalen der genauen Version des Codes zuordnen, die sie erzeugt hat – selbst wenn sich die Codebasis ständig weiterentwickelt.

Um dieses Problem zu lösen, besteht unsere Strategie darin, Versionskontrolle, Build-Diagramme und Laufzeit-Telemetrie in einer hybriden symbolisch-vektoriellen Darstellung zu vereinen, wobei Syntax, Semantik und Beziehungen erhalten bleiben. Dies ermöglicht es der Code-Intelligence-Plattform, Code so zu verstehen, wie es erfahrene Ingenieure tun: als miteinander verbundene Systeme, die durch Designprinzipien, Kompromisse und Leistungsdaten geprägt sind, und nicht als isolierte Textdateien.
Extrahieren von Expertensignalen durch Exemplar-Alignment
Wahre Expertise verbirgt sich in Mustern, Review-Kommentaren, Commit-Verläufen und subtilen Code-Idiomen. Code Intelligence macht dieses implizite Wissen über eine Exemplar-Alignment-Engine sichtbar, die es Ingenieuren ermöglicht, „Gold“-Beispiele für ideale Implementierungen oder Review-Begründungen zu kuratieren.
Früher verbrachte ein erfahrener Ingenieur möglicherweise jede Woche Stunden damit, PRs zu überprüfen und wiederholt die Verwendung eines blockierenden FetchData-Aufrufs innerhalb hochfrequenter Schleifen zu markieren – ein Muster, das semantisch korrekt erscheint, aber bei Roblox-Größenordnungen zu erheblichen Latenzen führt. Wenn der Experte nicht vor Ort ist oder einen Fehler übersieht, wird sein Wissen möglicherweise nicht angewendet, und ein Anti-Muster könnte in die Produktion gelangen und einen Ausfall für unsere Community verursachen.
Mithilfe der Alignment-Engine kann dieser Entwickler sein Urteil in ein Beispiel in natürlicher Sprache kodieren. Dabei handelt es sich um eine strukturierte Definition, die das Codemuster (das „Was“) mit der Begründung (dem „Warum“) kombiniert. Nun erkennt das System automatisch den blockierenden Aufruf, markiert ihn, erläutert das Latenzrisiko und verlinkt direkt zur internen Dokumentation über Best Practices für asynchrone Abläufe:
Blockierungen innerhalb einer hochfrequenten Schleife führen zu erhöhter Latenz und Thread-Erschöpfung. Wenn ein `FetchData`-Aufruf in einer asynchronen Aufgabe erfolgt, warne den Autor vor Latenz und Thread-Erschöpfung. `FetchData` ist in Ordnung, solange die Aufgabe bereits abgearbeitet wurde. Stelle einen direkten Link zu Best Practices für Asynchronität bereit unter: internal_guidance/async. |
Dies kodiert effektiv das hart erarbeitete Wissen eines Entwicklers aus jahrelanger Erfahrung. Das System verwandelt einen einmaligen Review-Kommentar in eine dauerhafte, automatisierte Leitplanke.
„Was die Alignment-Engine so leistungsstark macht, ist nicht nur, dass sie die Codequalität verbessert – sie skaliert auch das Mentoring. Wir integrieren das Fachwissen und die Intuition unserer erfahrensten Experten direkt in die Plattform. Es ist, als würde ein erfahrener Roblox-Domain-Experte jeden Tag den ganzen Tag lang mit Ihnen gemeinsam programmieren.“ – Tom Knych, Senior Technical Director
Aber auch unsere Experten haben alle Hände voll zu tun, und sie zu bitten, sich an all ihre wichtigsten Erkenntnisse zu erinnern und diese aufzuschreiben, ist bestenfalls ein zeitaufwändiger und verlustbehafteter Prozess. Wie können wir ihnen also helfen, ihre besten Ratschläge während ihrer Zeit bei Roblox festzuhalten?
Sie sind bereits vorhanden, festgehalten in ihren akribischen Kommentaren zur Codeüberprüfung und verewigt in jedem einzelnen PR, der es bis in die Produktion schafft:

Wir leiten historische PR-Kommentare durch eine Pipeline, die die wertvollsten Themen aus der Roblox-Erfahrung bereinigt und extrahiert. Anfänglich sind die Daten mit nicht verwertbaren Kommentaren wie Lob oder Korrekturen von Tippfehlern überladen, während wertvolles Feedback oft in einer Kurzschrift verfasst ist, die stark vom Kontext abhängt. So ist beispielsweise eine Anmerkung wie „Verwende hier das neue Muster“ ohne Verständnis der spezifischen Datei und des Diff-Berichts bedeutungslos. Das System muss diese spezifischen Interaktionen in wiederverwendbare, verallgemeinerbare Regeln übersetzen.
Um dies zu lösen, setzen wir einen mehrstufigen Algorithmus ein, der ohne menschliches Eingreifen wiederkehrende Themen in Tausenden von PRs erkennt. Das System bettet historische Kommentare in einen Vektorraum ein, nutzt Greedy-Clustering, um Nachbarschaften verwandter Rückmeldungen zu finden, und wendet eine LLM-gesteuerte Verfeinerung an, um diese zu hochwertigen Mustern zusammenzufassen.
Das Ergebnis ist eine Rangliste mit Kandidatenbeispielen (oder Erkenntnissen), priorisiert nach ihrer Häufigkeit und der Breite ihrer Zitierung durch verschiedene Prüfer, komplett mit Verweisen auf die ursprünglichen Kommentare. Unsere Fachexperten prüfen dann die Kandidaten, nehmen bei Bedarf Änderungen vor und entscheiden, welche als zentrale Best Practices in die Wissensdatenbank aufgenommen werden sollen. Nach den ersten Einblicken in diesen Prozess waren die Repository-Verantwortlichen begeistert, ihre Lieblingsthemen als wichtige Leitlinien auftauchen zu sehen, und wollten ihre Repositories sofort für die Analyse anmelden.

Der letzte Schritt ist der Abgleich-Agent, der sowohl menschliche Ingenieure als auch KI-Codierungsagenten unterstützt, indem er alle Änderungen anhand der Beispiel-Wissensdatenbank überprüft. Diese flexible Bewertung kann während des gesamten Softwareentwicklungszyklus angewendet werden: beim Codieren, beim Zusammenführen und sogar mit einem Agenten für kontinuierliche Verbesserung, der die Roblox-Codebasis autonom pflegt, während die Wissensdatenbank wächst.
Durch die Nutzung dieses kontextbezogenen Lernens, um das KI-Verhalten an Roblox-Standards auszurichten, konnten wir beobachten, wie die Erfolgsquote eines KI-Codierungsagenten bei seinem Golden-Evaluierungsdatensatz von 84 % auf 100 % stieg. Wir bringen der Roblox-KI nicht nur das Codieren bei; wir bringen unserer KI bei, wie Roblox-Entwickler denken.
Aus negativen Signalen lernen
Während die Exemplar-Ausrichtung unsere Basis für die Code-Qualität deutlich angehoben hat, ist es unser oberstes Ziel, den Punkt zu erreichen, an dem der erste Durchlauf von KI-vorgeschlagenem Code genauso vertrauenswürdig ist wie die Arbeit unserer erfahrensten Ingenieure. Deshalb nutzen wir jeden abgelehnten KI-Vorschlag, jede fehlgeschlagene Refaktorisierung oder jeden Regressions-verursachenden Merge als wertvolles Signal, das wir in das System zurückführen können. Dies schafft eine Pipeline, über die sich die Agenten kontinuierlich verbessern und aus ihren Fehlern lernen können.
Negative Ergebnisse können von Fachexperten mit detaillierter Begründung, einer Gedankengangkette und zusätzlichem Kontext rund um den Fehler gefiltert und gekennzeichnet werden. Diese Daten werden dann semantisch eingebettet und für den Abruf indexiert. Wenn unsere Code-Intelligence-Plattform neue Ergebnisse vorschlägt, führt sie eine semantische Suche durch diese Daten durch und ruft vergangene Fehler sowie das Feedback der Prüfer ab, um Wiederholungen zu vermeiden.
Dieser geschlossene Feedback-Kreislauf verwandelt jede Code-Review in strukturierte Lerndaten und verfeinert das zukünftige Verhalten der Agenten kontinuierlich durch adversariales und kritikbasiertes Training.
Aufbau eines robusten Bewertungsrahmens
Vertrauen entsteht durch zuverlässiges, vorhersehbares Verhalten, das mit Messungen beginnt. Wir haben ein spezielles Bewertungssystem entwickelt, um die Leistung unserer Agenten im Zeitverlauf zu verfolgen.

Das Framework umfasst:
- Benchmarks auf Aufgabenebene: Präzision und Recall für Tausende von Roblox-Entwicklungsaktivitäten, wie Refactoring, Testen und Fehlerbehebung.
- Simulations-Harnesses: Synthetische PRs mit deterministischen Ergebnissen für reproduzierbare Bewertungen.
- Human-in-the-Loop-Panels: Expertenvergleich von KI-Ergebnissen mit Goldstandard-Implementierungen.
- Ausführungs-Framework: Beim Zusammenführen von Agent-Verbesserungen werden relevante Bewertungen parallelisiert und als Teil der Continuous-Integration-Suite (CI) vor dem Merge ausgeführt, was den Entwicklern ein hohes Maß an Vertrauen in ihre Änderungen gibt.
- Längsschnittmetriken: Regressionen nach der Zusammenführung, Rollback-Häufigkeit und Latenzänderungen, die über mehrere Releases hinweg verfolgt werden.
- Umfassende Beobachtbarkeit: Automatische Nachverfolgung und Visualisierung der Agentenaktivität, um Agenten mit dem Rest von Roblox in Beziehung zu setzen und nahtlos in die Online- und Offline-Bewertung einfließen zu lassen.
Dieses System erzeugt einen Agenten-Qualitätswert, der Leistungsverschiebungen im Zeitverlauf genau nachverfolgt und standardisierte Vergleiche zwischen Agentenrevisionen und Modellversionen ermöglicht. Seit der Einführung der Exemplar-Ausrichtung und einer vollständigen Evaluierungssuite verbesserte sich die Akzeptanzrate der PR-Vorschläge eines Roblox-Code-Intelligence-Agenten bei einem Satz von 10.000 PRs von etwa 30 % auf über 60 % – ein frühes Anzeichen für vertrauenswürdige, domänenangepasste Leistung. Durch denselben Prozess steigerte unser Feature-Flag-Cleanup-Agent seine Gesamtgenauigkeit von 46 % auf über 90 %.
Der Weg in die Zukunft: Einbindung von Expertenwissen in jedes Tool
Wir verbessern die Nutzbarkeit unserer etablierten internen Systeme, indem wir eine Ebene aus MCP und Tool-Wrappern aufbauen und die Code-Intelligence-Plattform von gezielten Aufgaben zu einem System weiterentwickeln, das die Roblox-Codebasis in einem guten Zustand hält.
Wir stellen uns eine technische Zukunft vor, in der historisch schwer skalierbares Wissen, wie Laufzeitkontext und Expertenurteil, in jedes Tool und jeden Workflow eingebunden ist. Wenn Code-Intelligenz, Exemplar-Alignment und Observability zusammenkommen, erschließen wir nachhaltige Vorteile: bessere Qualität, schnellere Bereitstellung und eine gesündere, sich weiterentwickelnde Codebasis. Das langfristige Ziel ist es, jedem Entwickler die Kraft des institutionellen Gedächtnisses zu geben, jedem Team das Selbstvertrauen für schnelle Releases und jedem Entwickler die Freiheit, sich auf Innovation statt auf Wartung zu konzentrieren.


