Open Sourcing des Roblox-PII-Klassifikators: Unser Ansatz zur KI-gestützten Erkennung personenbezogener Daten im Chat
Nutzung des Kontexts zur Verbesserung der Trefferquote

Jeden Tag generieren Nutzer durchschnittlich 6,1 Milliarden Chat-Nachrichten auf Roblox. Wir setzen robuste Moderationssysteme ein, legen altersabhängige Einschränkungen fest und bieten Kindersicherungen an, um eine sichere und höfliche Kommunikation zu gewährleisten. Die überwiegende Mehrheit der Nachrichten auf der Plattform sind alltägliche Unterhaltungen, wie zum Beispiel zwei Freunde, die eine Spielstrategie besprechen, aber in einem kleinen Prozentsatz der Nachrichten versuchen Nutzer, personenbezogene Daten (PII) weiterzugeben, die sensibel sein könnten. PII können viele Formen annehmen, und Nutzer geben sie aus vielen harmlosen Gründen weiter: Ein Nutzer könnte seinen Benutzernamen von einer anderen Plattform teilen, um das Spiel zu koordinieren, oder eine Telefonnummer, um eine aufkeimende Freundschaft aufzubauen. Es gibt jedoch seltene Fälle, in denen böswillige Akteure nach PII suchen, um Nutzer von Roblox auf andere Plattformen zu locken, auf denen ein höheres Risiko für Schaden in der realen Welt bestehen könnte. In der Praxis sind diese unterschiedlichen Absichten schwer zu unterscheiden, weshalb wir strenge Richtlinien gegen das Teilen oder Einholen von PII haben. Wir nutzen standardmäßig mehrere Tools, um alle im Chat erkannten PII zu blockieren, und lockern die Beschränkungen nur für Nutzer ab 18 Jahren sowie für Nutzer zwischen 13 und 17 Jahren, die sich gegenseitig als „Trusted Connections“ verifiziert haben.
Die Erkennung personenbezogener Daten ist eine branchenweite technische Herausforderung. Standard-Erkennungstools der Branche können umgangen werden und sind nicht in der Lage, sich an neue Sprachmuster anzupassen. Da kein Tool perfekt ist, haben wir ein KI-Modell entwickelt, den „Roblox PII Classifier“, um der sich ständig weiterentwickelnden Natur der Sprache Rechnung zu tragen und anhand des Kontexts Situationen zu erkennen, in denen Nutzer versuchen, Filter zu umgehen, um nach personenbezogenen Daten zu fragen oder diese weiterzugeben.
Wir freuen uns, bekannt zu geben, dass wir den PII Classifier heute zusammen mit den anderen Tools in unserem Open-Source-Sicherheits-Toolkit als Open Source veröffentlichen. Seit der Implementierung des PII Classifier Ende 2024 haben wir eine rasche und anhaltende Verbesserung der Erkennungsrate beobachtet, wobei die Leistung andere verfügbare Modelle übertrifft. Die Version unseres PII-Modells, die wir heute als Open Source veröffentlichen, weist eine Erkennungsrate von 98 % potenzieller PII-Konversationen in englischen Texten1 auf Roblox auf. Das Modell hat zudem einen F1-Score von 94 % bei unseren Produktionsdaten erreicht und übertrifft damit andere hochmoderne Sicherheitsmodelle wie LlamaGuard v3 8B (28 %) und Piiranha NER (14 %).



Die Herausforderungen
Die effektive Erkennung von personenbezogenen Daten in großem Maßstab lässt sich auf drei Hauptherausforderungen zurückführen:
- Adversarische Muster: Nutzer sind kreativ und finden ständig neue Wege, Filter zu umgehen. Ein effektives System muss sich an die Sprachentwicklung anpassen und neue Muster erkennen.
- Training und Bewertung: Um das effektivste Modell zu erstellen, müssen wir auch effektive Trainingsdatensätze und Bewertungsmethoden entwickeln. Da das Modell aufkommende Muster berücksichtigen muss, reichen aktuelle Produktionsdaten für das Training nicht aus.
- Leistung: Der Einsatz eines solchen Modells in großem Maßstab erfordert durchdachte Architektur- und Optimierungsentscheidungen, um negative Auswirkungen auf die Benutzererfahrung zu vermeiden.
Adversariale Muster
Bestehende Lösungen zur Erkennung personenbezogener Daten stützen sich hauptsächlich auf die Erkennung benannter Entitäten (NER), also die Erkennung bestimmter Substantivtypen auf Token-Ebene, wie Social-Media-Handles, Telefonnummern und Adressen. Doch die Erkennung von Substantiven ist nur ein Teil der Herausforderung. Versierte Angreifer verändern ihre Sprache absichtlich, um die NER-Erkennung zu umgehen (z. B. durch die Verwendung von „Alpha“, „Bravo“ und „Charlie“ anstelle von A, B und C oder durch die Erwähnung einer Plattform, ohne diese explizit zu benennen). Es ist möglich, dass ein Angreifer seine Absicht signalisiert, auf einer anderen Plattform Kontakt aufzunehmen, ohne jemals die sensiblen Informationen preiszugeben, die ein NER-Filter abfangen würde. Die Aufgabe des PII-Klassifikators besteht nicht nur darin, explizite PII-Texte, die auf Roblox geteilt werden, zu erkennen und zu verschleiern, sondern auch darin, den Kommunikationskontext zu verstehen und Angreifer von vornherein daran zu hindern, Gespräche über PII zu führen.
Hier sind einige typische Umgehungsmuster unter Verwendung einer hypothetischen sozialen Plattform, StarTalk:
Manipulation auf Zeichenebene
- „Hast du so was wie 5tärtālk, wo du anrufen willst? Ich hab vor ein paar Tagen einen Account erstellt.“
- „ggrr ich hasse es Tags Wie heißt du Das ist S und T“
Implizite Verweise auf beliebte soziale Medien
- „Noch mal, wie lautet dein Rats-PPA? Reverse“
- „Hey, kannst du mal meinen Namen in der Yellow Sun App checken? Lass uns dort chatten?“
Sprache und Slang-Ausdrücke entwickeln sich im Laufe der Zeit weiter, und böswillige Akteure suchen ständig nach neuen Wegen, um Filter zu umgehen. Die Stärke des PII Classifier liegt in seiner Fähigkeit, sich an neue Sprachmuster und Umgehungsstrategien anzupassen, sobald diese auftauchen. Wenn wir reale Angriffsmuster erkennen, integrieren wir diese wieder in das Modell, um es kontinuierlich weiterzutrainieren.
Training und Bewertung

Um das Modell zunächst zu trainieren, haben wir PII-bezogene Daten manuell überprüft und gekennzeichnet. Das gab uns einen Ausgangspunkt, ermöglichte es uns jedoch nicht, schnell zu skalieren und eine große Vielfalt an Szenarien zu erfassen. Anstatt zu versuchen, jeden Begriff und jede Permutation in Milliarden von Chat-Nachrichten pro Tag manuell durchzugehen und die entsprechende Kennzeichnung zuzuweisen, haben wir Datensampler entwickelt und getestet, um relevante Beispiele für das Training auszuwählen. Unser Ziel war es, harmlose Unterhaltungen auszuschließen und uns auf Unterhaltungen zu konzentrieren, die personenbezogene Daten enthielten, um die Wahrscheinlichkeit menschlicher Fehler bei der Kennzeichnung zu verringern und einen größeren Bereich abzudecken. Zwei Sampler haben sich als besonders effektiv erwiesen:
- Uncertainty Sampling unter Verwendung von Modell-Score-Ausgaben: Dieser Sampler wählte Proben aus, die kein starkes positives oder negatives Signal hervorriefen, wodurch wir mehrdeutige Fälle weiter verfeinern konnten.
- Proben aus aufeinanderfolgenden PII-Blöcken: Dieser Sampler wählte Proben von Nutzern aus, die in einigen Gesprächen, jedoch nicht in aufeinanderfolgenden Gesprächen markiert worden waren. Diese Folgegespräche enthielten mit größerer Wahrscheinlichkeit atypische Formulierungen, die den aktuellen PII-Filter umgangen hatten. In der Praxis könnte dies so aussehen, dass ein Nutzer zunächst nicht in der Lage ist, das System zu umgehen, und es so lange erneut versucht, bis er eine clevere Lücke findet.
Diese Kombination aus Datensampling und manueller Annotation aktueller Produktionsdaten bildete eine solide Grundlage für das Training des Modells. Da es unser Ziel war, aufkommende Muster zu berücksichtigen, benötigten wir jedoch eine Möglichkeit, das Modell mit Daten zu trainieren, die in unseren Stichproben noch nicht vorhanden waren.
KI-generierte synthetische Daten
Sich ausschließlich auf aktuelle Stichprobendaten zu stützen, könnte zu Verzerrungen führen und die Anpassungsfähigkeit des Modells einschränken, wenn sich neue Kommunikationsmuster entwickeln. Beispielsweise beziehen sich die häufigsten PII-Anfragen auf Roblox auf Nutzernamen beliebter Social-Media-Plattformen. Ein Modell, das ausschließlich auf Produktionsdaten trainiert wurde, könnte eine Verzerrung zugunsten der häufigsten Anfragen entwickeln und bei selteneren Anfragen, wie weniger bekannten Social-Media-Plattformen, E-Mail-Adressen und Telefonnummern, unterdurchschnittlich abschneiden. Die Kommunikation der Nutzer tendiert zudem dazu, sich auf gängige Vokabeln und Sprachmuster zu konzentrieren. Ein Modell, das ausschließlich auf Produktionsdaten trainiert wurde, könnte eine Verzerrung zugunsten gängiger Sprachmuster entwickeln und Verstöße, die auf atypische oder neu aufkommende Weise ausgedrückt werden, nicht erkennen.
Um diese und andere Verzerrungen zu beseitigen, haben wir eine KI-Pipeline zur Datengenerierung entwickelt, die gezielt Schwachstellen behebt, die aus dem ursprünglichen Trainingsdatensatz stammen. Zunächst generierten wir Eingabeaufforderungen unter Verwendung einer Kombination von Variablen, darunter Kontext, Art der personenbezogenen Daten, Nutzerpersönlichkeit, Sprache und Beispiel-Chatzeilen. Anschließend generierten wir auf Basis dieser Eingabeaufforderungen neue Chatzeilen und speisten diese in das Modell ein.
Red Teaming durch Menschen und KI
Wir setzten während der Entwicklung sowohl menschliches als auch KI-Red-Teaming ein (bei dem Teams gegnerische Angriffe simulieren, um die Abwehrmechanismen eines Systems zu testen), um die Wirksamkeit des Modells zu prüfen und das Training zu verfeinern. Wir luden Moderatoren ein, mit verschiedenen Methoden zum Abfragen und Teilen von PII zu experimentieren, und forderten LLMs auf, diese Methoden auf verschiedene Weise zu erweitern; anschließend fügten wir alle Beispiele, die das Modell übersehen hatte, seinem Trainingsdatensatz hinzu. Das KI-Red-Teaming half uns, schnell viele Varianten zu testen und Methoden abzudecken, die Moderatoren möglicherweise nicht berücksichtigt hätten. Zum Beispiel:
Original: Das Passwort lautet xxxx
KI-ergänzt: DAS PASSWORT IST xxxx
Original: Bella, meine Telefonnummer lautet 346
KI-ergänzt: Bella, meine Nummer lautet eigentlich threefour6
Red Teaming half uns, Lücken in unseren aktuellen Trainingsdaten besser zu verstehen und unsere synthetischen Daten anzupassen, um diese zu schließen. Es ermöglichte uns außerdem, Unterschiede zwischen Modelliterationen zu messen, was zunehmend schwieriger wird, wenn zwei Versionen eines Modells beginnen, den Bewertungssatz zu sättigen. Wir haben mehrere Versionen des Modells im Rahmen des Red-Teaming-Tools eingesetzt, um die Umgehungsraten in derselben Umgebung direkt zu vergleichen und festzustellen, welches Modell statistisch gesehen effektiver war.
Leistung
Mit durchschnittlich 6,1 Milliarden ausgetauschten Chat-Nachrichten pro Tag erhält der PII-Klassifikator auf Roblox Spitzenwerte von über 200.000 Abfragen pro Sekunde. Wir bewältigen dieses Volumen mit einer P90-Latenz von <100 ms. Um ein Gleichgewicht zwischen Durchsatz und Qualität zu erreichen, haben wir uns für eine reine Encoding-Architektur entschieden und unser Modell auf Basis von XLM-RoBERTa-Large2 feinabgestimmt. Wir trennen Tokenizer sowie Vor- und Nachbearbeitungsdienste, um sie effizient auf der CPU auszuführen, und stellen die reine Transformer-Architektur auf der GPU bereit, um die Kosten zu senken. Außerdem nutzen wir dynamisches Batching auf Triton-Servern, um den Durchsatz zu steigern.
Benchmarking anhand öffentlicher und interner Datensätze
Wir haben den PII Classifier anhand unserer eigenen Produktionsdaten und öffentlicher Datensätze mit anderen Modellen auf dem neuesten Stand der Technik verglichen. Die meisten öffentlichen PII-Datensätze konzentrieren sich auf den PII-Text selbst und nicht auf den umgebenden Text, der auf eine Absicht hindeuten könnte, sodass nichts perfekt zu unseren Plattformanforderungen für das Benchmarking passte. Dennoch wollten wir sehen, wie sich unser Modell im Vergleich zu aktuellen Erkennungslösungen unter Verwendung beliebter PII-Datensätze, wie dem PII Data Detection Dataset3 von The Learning Agency Lab auf Kaggle, schlägt.
Wir verwendeten F1-Scores, da die im Vergleich herangezogenen LLMs nur ein (Recall, Precision) Paar liefern. Für Modelle, die Klassifizierungswerte ausgeben, haben wir den optimalen F1-Score im Testdatensatz angegeben. Beachten Sie, dass unser Modell einen Ausschnitt aus den Chat-Zeilen des Benutzers als Eingabe benötigt und einen PII-Score ausgibt, den wir verwenden, um eine binäre Entscheidung über die Chat-Zeilen zu treffen. Für einen fairen Vergleich haben wir den öffentlichen Datensatz nach Sätzen aufgeteilt und jeden Satz als positiv gekennzeichnet, wenn er positive NER-PII-Token enthielt.
PII V1.1 | ||||||
45,48 % | 5,90 % | 5,46 % | 3,72 % | 3,26 % | 33,20 % | |
Roblox-Bewertung Englisch | 94,34 % | 3,17 % | 27,73 % | 26,55 % | 26,29 % | 13,88 % |
In unseren Benchmarks hat unser Modell andere Open-Source-Modelle sowohl auf dem öffentlichen Datensatz von The Learning Agency Lab als auch auf unseren internen Produktionsdaten, die mehr als 47.000 vielfältige, realistische Beispiele auf Roblox umfassen, deutlich übertroffen. Der Fokus auf die Einbeziehung eines breiteren Konversationskontexts und die kontinuierliche Anpassung an die Fluidität der Sprache hat sich als wirksamer Ansatz erwiesen, um mehr Konversationen zu erkennen, in denen ein Nutzer beabsichtigt, personenbezogene Daten anzufordern oder weiterzugeben.
Der PII-Klassifikator ist nur eines von vielen innovativen Systemen, die wir einsetzen, um Sicherheit und einen höflichen Umgangston auf Roblox zu fördern. Die Fähigkeit zu erkennen, wann eine Konversation in Richtung einer Anfrage nach personenbezogenen Daten abdriftet, bedeutet, dass wir verschlüsselte Anfragen erfassen können, die andernfalls der Erkennung entgehen würden. Zwar ist kein System perfekt, doch die Ergebnisse aus unserem ersten Produktionsjahr sind bereits vielversprechend, und wir freuen uns darauf, das Tool zusammen mit den anderen Tools in unserem Open-Source-Sicherheits-Toolkit der Open-Source-Community zur Verfügung zu stellen.
- Die Wiederauffindungsrate von 98 % wurde anhand eines internen Roblox-Testsatzes bei einer Falsch-Positiv-Rate von 1 % gemessen. Der Datensatz stammt aus Produktionsdaten und wurde mehrfach von Sicherheitsexperten geprüft und gekennzeichnet.
- Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L. und Stoyanov, V. 2019. Unüberwachtes, sprachübergreifendes Repräsentationslernen in großem Maßstab. arXiv-Vorabdruck arXiv:1911.02116.
- Holmes, L., Crossley, S. A., Sikka, H. und Morris, W. 2023. PIILO: Ein Open-Source-System zur Kennzeichnung und Verschleierung personenbezogener Daten. Information and Learning Science, 124 (9/10), 266–284.


