Inside the Tech – Lösungen für mehr Sicherheit in der immersiven Sprachkommunikation

Die Entwicklung der Roblox-Avatare
Mit Kiran Bhat, Senior Director of Engineering, Mahesh Ramasubramanian, Senior Director of Product, und Effie Goenawan, Principal Product Manager
Kiran Bhat, Senior Director of Engineering, Mahesh Ramasubramanian, Senior Director of Product, und Effie Goenawan, Principal Product Manager, sprechen gemeinsam mit CEO David Baszucki über die Zukunft der immersiven Kommunikation durch Avatare und die technischen Herausforderungen, die wir bewältigen, um diese zu ermöglichen. Sie werden ausführlich darüber diskutieren, wie ausdrucksstarke Avatare es uns nicht nur ermöglichen, uns digital auszudrücken, sondern auch durch Stimme, Mimik und Körpersprache immersiver zu kommunizieren.
Was sind die größten technischen Herausforderungen, denen sich Ihr Team stellt?
Wir legen größten Wert darauf, unseren Nutzern ein sicheres und positives Erlebnis zu bieten. Sicherheit und Höflichkeit stehen für uns immer an erster Stelle, doch die Bewältigung dieser Aufgaben in Echtzeit kann eine große technische Herausforderung darstellen. Wann immer ein Problem auftritt, möchten wir es überprüfen und in Echtzeit Maßnahmen ergreifen können, doch angesichts unserer Größe ist dies eine Herausforderung. Um diese Größenordnung effektiv zu bewältigen, müssen wir automatisierte Sicherheitssysteme einsetzen.
Eine weitere technische Herausforderung, auf die wir uns konzentrieren, ist die Genauigkeit unserer Sicherheitsmaßnahmen bei der Moderation. Es gibt zwei Moderationsansätze, um Verstöße gegen Richtlinien zu ahnden und in Echtzeit präzises Feedback zu geben: reaktive und proaktive Moderation. Für die reaktive Moderation entwickeln wir Machine-Learning-Modelle (ML), um verschiedene Arten von Richtlinienverstößen genau zu identifizieren; diese reagieren auf Meldungen von Nutzern auf der Plattform. Proaktiv arbeiten wir an der Echtzeit-Erkennung potenzieller Inhalte, die gegen unsere Richtlinien verstoßen, und klären Nutzer über ihr Verhalten auf. Das Verstehen gesprochener Sprache und die Verbesserung der Audioqualität sind komplexe Prozesse. Wir sehen bereits Fortschritte, doch unser oberstes Ziel ist ein hochpräzises Modell, das richtlinienwidriges Verhalten in Echtzeit erkennen kann.
Was sind einige der innovativen Ansätze und Lösungen, die wir einsetzen, um diese technischen Herausforderungen zu bewältigen?
Wir haben ein durchgängiges ML-Modell entwickelt, das Audiodaten analysieren kann und je nach Art der Richtlinienverletzung einen Konfidenzgrad angibt (z. B. wie wahrscheinlich ist Mobbing, Obszönität usw.). Dieses Modell hat unsere Fähigkeit, bestimmte Meldungen automatisch abzuschließen, erheblich verbessert. Wir ergreifen Maßnahmen, wenn unser Modell sicher ist und wir davon überzeugt sind, dass es Menschen übertrifft. Bereits wenige Monate nach der Einführung konnten wir mit diesem Modell fast alle Meldungen über missbräuchliche Äußerungen in englischer Sprache bearbeiten. Wir haben diese Modelle intern entwickelt, was die Zusammenarbeit zwischen vielen Open-Source-Technologien und unserer eigenen Arbeit bei der Entwicklung der dahinterstehenden Technologie unterstreicht.
In Echtzeit zu bestimmen, was angemessen ist, scheint ziemlich komplex zu sein. Wie funktioniert das?
Es wurde viel darüber nachgedacht, das System kontextbewusst zu gestalten. Wir betrachten auch Muster über einen längeren Zeitraum, bevor wir Maßnahmen ergreifen, damit wir sicher sein können, dass unsere Maßnahmen gerechtfertigt sind. Unsere Richtlinien sind je nach Alter einer Person, je nachdem, ob sie sich in einem öffentlichen Bereich oder einem privaten Chat befindet, und vielen anderen Faktoren differenziert. Wir erforschen neue Wege, um Höflichkeit in Echtzeit zu fördern, und ML steht dabei im Mittelpunkt. Wir haben kürzlich automatisierte Push-Benachrichtigungen eingeführt, um Nutzer an unsere Richtlinien zu erinnern. Wir untersuchen auch andere Faktoren wie den Tonfall, um die Absichten einer Person besser zu verstehen und Dinge wie Sarkasmus oder Witze zu unterscheiden. Schließlich entwickeln wir auch ein mehrsprachiges Modell, da manche Menschen mehrere Sprachen sprechen oder sogar mitten im Satz die Sprache wechseln. Damit all dies möglich ist, benötigen wir ein präzises Modell.
Derzeit konzentrieren wir uns darauf, die häufigsten Formen von Missbrauch anzugehen, wie Belästigung, Diskriminierung und Obszönitäten. Diese machen den Großteil der Missbrauchsmeldungen aus. Unser Ziel ist es, in diesen Bereichen einen bedeutenden Beitrag zu leisten und die Branchenstandards dafür zu setzen, wie die Förderung und Aufrechterhaltung eines höflichen Online-Dialogs aussehen sollte. Wir sind begeistert vom Potenzial des Einsatzes von ML in Echtzeit, da es uns ermöglicht, effektiv ein sicheres und höfliches Erlebnis für alle zu schaffen.
Inwiefern sind die Herausforderungen, die wir bei Roblox angehen, einzigartig? Was können wir als Erstes lösen?
Unsere „Chat with Spatial Voice“-Technologie schafft ein immersiveres Erlebnis, das die Kommunikation in der realen Welt nachahmt. Wenn ich beispielsweise links von jemandem stehe, hört mich diese Person im linken Ohr. Wir schaffen ein Analogon dazu, wie Kommunikation in der realen Welt funktioniert, und dies ist eine Herausforderung, die wir als Erstes lösen können.
Als Gamer habe ich selbst viel Belästigung und Mobbing in Online-Spielen miterlebt. Es ist ein Problem, das aufgrund der Anonymität der Nutzer und fehlender Konsequenzen oft ungeahndet bleibt. Die technischen Herausforderungen, die wir in diesem Zusammenhang angehen, unterscheiden sich jedoch in einigen Bereichen von denen anderer Plattformen. Auf manchen Gaming-Plattformen sind Interaktionen auf Teamkollegen beschränkt. Roblox bietet eine Vielzahl von Möglichkeiten, sich in einem sozialen Umfeld zu treffen, das das echte Leben näher nachahmt. Dank Fortschritten im Bereich des maschinellen Lernens und der Echtzeit-Signalverarbeitung sind wir in der Lage, missbräuchliches Verhalten effektiv zu erkennen und zu bekämpfen. Das bedeutet, dass wir nicht nur eine realistischere Umgebung bieten, sondern auch eine, in der sich jeder sicher fühlt, mit anderen zu interagieren und Kontakte zu knüpfen. Die Kombination aus unserer Technologie, unserer immersiven Plattform und unserem Engagement, Nutzer über unsere Richtlinien aufzuklären, versetzt uns in die Lage, diese Herausforderungen direkt anzugehen.
Was sind einige der wichtigsten Dinge, die Sie bei dieser technischen Arbeit gelernt haben?
Ich habe das Gefühl, dass ich sehr viel gelernt habe. Ich bin kein ML-Ingenieur. Ich habe hauptsächlich im Frontend-Bereich der Spieleindustrie gearbeitet, daher war es für mich schon ein großer Gewinn, tiefer als bisher in die Funktionsweise dieser Modelle einzutauchen. Ich hoffe, dass die Maßnahmen, die wir zur Förderung eines höflichen Umgangs ergreifen, zu einem Maß an Empathie in der Online-Community führen, das bisher gefehlt hat.
Eine letzte Erkenntnis ist, dass alles von den Trainingsdaten abhängt, die man eingibt. Und damit die Daten korrekt sind, müssen sich Menschen auf die Labels einigen, die zur Kategorisierung bestimmter richtlinienwidriger Verhaltensweisen verwendet werden. Es ist wirklich wichtig, mit qualitativ hochwertigen Daten zu trainieren, auf die sich alle einigen können. Das ist ein wirklich schwer zu lösendes Problem. Man erkennt Bereiche, in denen ML allen anderen weit voraus ist, und andere Bereiche, in denen es sich noch in einem frühen Stadium befindet. Es gibt noch viele Bereiche, in denen ML sich weiterentwickelt, daher ist es entscheidend, sich seiner aktuellen Grenzen bewusst zu sein.
Welcher Roblox-Wert entspricht am ehesten der Ausrichtung Ihres Teams?
Der Respekt vor der Community ist unser Leitwert während dieses gesamten Prozesses. Zunächst müssen wir uns darauf konzentrieren, den Umgangston zu verbessern und Verstöße gegen die Richtlinien auf unserer Plattform zu reduzieren. Dies hat erhebliche Auswirkungen auf das gesamte Nutzererlebnis. Zweitens müssen wir sorgfältig abwägen, wie wir diese neuen Funktionen einführen. Wir müssen auf Fehlalarme (z. B. die fälschliche Einstufung von Inhalten als Missbrauch) im Modell achten und vermeiden, Nutzer zu Unrecht zu bestrafen. Die Überwachung der Leistung unserer Modelle und ihrer Auswirkungen auf das Nutzerengagement ist entscheidend.
Was begeistert Sie am meisten daran, wohin Roblox und Ihr Team sich entwickeln?
Wir haben erhebliche Fortschritte bei der Verbesserung der öffentlichen Sprachkommunikation gemacht, aber es gibt noch viel zu tun. Die private Kommunikation ist ein spannender Bereich, den es zu erkunden gilt. Ich glaube, es gibt enorme Möglichkeiten, die private Kommunikation zu verbessern, damit Nutzer sich gegenüber engen Freunden ausdrücken können und während sie mit ihren Freunden interagieren, über verschiedene Erlebnisse hinweg oder während eines Erlebnisses hinweg telefonieren können. Ich glaube, es gibt auch die Möglichkeit, diese Communities mit besseren Tools zu fördern, die es den Nutzern ermöglichen, sich selbst zu organisieren, Communities beizutreten, Inhalte zu teilen und Ideen auszutauschen.
Wie skalieren wir unsere Chat-Technologie, um diese wachsenden Communities zu unterstützen, während wir weiter wachsen? Wir kratzen gerade erst an der Oberfläche dessen, was wir alles tun können, und ich glaube, es gibt die Chance, die Höflichkeit der Online-Kommunikation und Zusammenarbeit branchenweit auf eine Weise zu verbessern, wie es bisher noch nicht geschehen ist. Mit der richtigen Technologie und ML-Fähigkeiten sind wir in einer einzigartigen Position, um die Zukunft der höflichen Online-Kommunikation zu gestalten.


