Le contenu de ce site a été traduit à l'aide de l'intelligence artificielle (IA) ou d'une technologie de traduction automatique, et peut contenir des erreurs.

Skip to content

Open Sourcing Roblox Sentinel : notre approche de la détection préventive des risques

Utilisation de l'IA pour détecter rapidement les schémas de conversation anormaux

  • Chaque jour, plus de 100 millions d'utilisateurs de tous âges vivent une expérience sûre et positive sur Roblox.
  • Nous nous efforçons de rendre nos systèmes aussi sûrs que possible par défaut, en particulier pour nos plus jeunes utilisateurs. Pour ce faire, nous appliquons des politiques extrêmement strictes et utilisons l'IA pour filtrer les messages inappropriés que nous détectons dans les chats, y compris les informations personnelles identifiables (en dehors des « Trusted Connections »). Nous modérons le contenu de manière proactive et n'autorisons pas le partage d'images du monde réel dans les chats.
  • Bien sûr, aucun système n'est parfait, et l'un des plus grands défis du secteur consiste à détecter les dangers graves, tels que la mise en danger potentielle d'un enfant. Une série de discussions amicales et de messages de soutien peut prendre une signification différente au fil d'un historique de conversation plus long, en particulier lorsqu'elle se déroule entre des utilisateurs de groupes d'âge différents. 
  • Nous avons développé Roblox Sentinel, un système d'IA basé sur l'apprentissage contrastif qui nous aide à détecter les premiers signes de mise en danger potentielle d'enfants, tels que le grooming, ce qui nous permet d'enquêter encore plus rapidement et, le cas échéant, de signaler les faits aux forces de l'ordre.
  • Au cours du premier semestre 2025, Sentinel a aidé notre équipe à transmettre environ 1 200 signalements de tentatives potentielles d’exploitation d’enfants au Centre national pour les enfants disparus et exploités. Cela inclut les tentatives visant à contourner nos mécanismes de filtrage et autres mesures de protection.
  • Nous sommes ravis de rendre Roblox Sentinel open source et nous sollicitons activement la participation de la communauté, dans l'espoir que cela contribuera à rendre Internet plus sûr.

Passer du temps avec des amis et rivaliser avec d’autres joueurs est un élément central de Roblox, et la communication est au cœur de ces activités. En effet, chaque jour, plus de 111 millions d’utilisateurs se connectent à Roblox, où la communauté envoie en moyenne 6,1 milliards de messages de chat et génère 1,1 million d’heures de communications vocales dans des dizaines de langues. Cette communication reflète le monde réel : la grande majorité consiste en des discussions quotidiennes, allant de conversations informelles à des échanges sur le gameplay, mais un petit nombre d’individus malveillants cherchent à contourner nos systèmes et tentent éventuellement de causer du tort. 

Le mois dernier, nous avons partagé notre vision de la communication adaptée à l’âge. Nous nous efforçons de rendre nos systèmes aussi sûrs que possible par défaut, en particulier pour nos plus jeunes utilisateurs. Par exemple, nous n’autorisons pas le partage d’images ou de vidéos entre utilisateurs via le chat. Nos systèmes, bien qu’imparfaits, s’améliorent continuellement et sont conçus pour bloquer de manière proactive les informations personnelles identifiables — comme les numéros de téléphone et les noms d’utilisateur — et les discussions entre utilisateurs dont l’âge n’a pas été vérifié sont fortement filtrées (et interdites pour les utilisateurs de moins de 13 ans). Roblox est l’une des plus grandes plateformes à exiger une estimation de l’âge par reconnaissance faciale pour discuter plus librement avec les personnes que vous connaissez. Notre objectif est d’être à la pointe de la sécurité dans le domaine des jeux en ligne, et nous nous engageons à ouvrir le code source de nos technologies de sécurité clés.

Aujourd’hui, nous lançons notre dernier modèle open source, Sentinel, un système d’IA destiné à détecter les interactions susceptibles de mettre des enfants en danger. Bien avant que la situation ne devienne explicite, Sentinel nous permet de détecter et d’analyser précocement des schémas subtils et, le cas échéant, d’alerter les forces de l’ordre.

Sentinel est utilisé sur Roblox depuis fin 2024 et constitue le dernier ajout à notre boîte à outils de sécurité open source. Au cours du premier semestre 2025, 35 % des cas que nous avons détectés sont le fruit de cette approche proactive, qui a souvent permis de les repérer avant même qu’un signalement d’abus ne soit déposé. Associé à nos autres systèmes de modération, Sentinel élargit notre arsenal d’outils pour détecter ces violations potentiellement graves et y remédier. 

Comprendre le défi
La mise en danger des enfants est un défi pour l'ensemble du secteur, ce qui rend les nouvelles technologies et la collaboration ouverte extrêmement précieuses. Le grooming en ligne — l'établissement systématique d'une relation de confiance et d'un lien émotionnel dans le but ultime d'exploiter la victime — est par nature un processus subtil et progressif. Ces interactions sont rares et commencent souvent par une série de discussions amicales, de messages de soutien et de partage d'intérêts communs. Des messages qui semblent au premier abord anodins peuvent prendre une signification différente au fil d'un historique de conversation plus long. Les malfaiteurs utilisent souvent un langage subtil, indirect ou codé, rendant délibérément les schémas difficiles à détecter, même pour des modérateurs humains. C'est pourquoi nos systèmes de détection évoluent en permanence pour s'adapter aux nouvelles méthodes utilisées par les malfaiteurs pour tenter de contourner nos systèmes. De plus, les données d'entraînement relatives au grooming sont rares, ce qui rend difficile l'entraînement des systèmes d'apprentissage automatique.
Impact proactif et informations opérationnelles

Sentinel est actuellement déployé à grande échelle en production. Au cours du premier semestre 2025, ses capacités proactives ont aidé notre équipe à soumettre environ 1 200 signalements au Centre national pour les enfants disparus et exploités. Bien qu'il y ait toujours matière à amélioration, les capacités de détection précoce de Sentinel nous aident déjà à identifier et à enquêter sur les acteurs malveillants potentiels plus tôt dans le processus, lorsque les messages sont encore subtils et avant qu'ils ne soient signalés par les utilisateurs. 

Des experts humains sont indispensables pour enquêter et intervenir dans les cas détectés par Sentinel. Des analystes formés, généralement d’anciens agents de la CIA ou du FBI et d’autres experts, examinent les cas que Sentinel signale comme potentiellement contraires aux règles. Les décisions prises par ces analystes créent une boucle de rétroaction qui nous permet d’affiner et de mettre à jour en permanence les exemples, les index et les ensembles de formation. Ce processus impliquant une intervention humaine est essentiel pour aider Sentinel à s’adapter et à suivre le rythme des nouveaux modèles et méthodes en constante évolution utilisés par les malfaiteurs pour échapper à notre détection.

Sentinel est un élément important du système de sécurité à plusieurs niveaux de Roblox, qui combine des outils d’IA innovants et des milliers d’experts humains. À ce jour, il fait également partie de notre boîte à outils de sécurité open source Roblox. Nous pensons que la promotion d’un monde numérique plus sûr est une responsabilité partagée. En mettant en open source des systèmes de sécurité tels que Sentinel, en partageant nos approches et en devenant membres fondateurs d’organisations telles que Robust Open Online Safety Tools (ROOST) et le projet Lantern de la Tech Coalition, nous espérons contribuer à l’avancement collectif des pratiques de sécurité en ligne et des communautés en ligne qui en dépendent.

« De nos jours, trop de plateformes n'ont pas accès aux outils sophistiqués nécessaires pour identifier et prévenir les préjudices en ligne, en particulier ceux qui visent les enfants. Chez ROOST, nous pensons que des mesures de sécurité robustes devraient être accessibles à toute personne soucieuse de protéger ses utilisateurs, et nous sommes ravis que Roblox apporte davantage d'outils librement accessibles dans le domaine de la confiance et de la sécurité. »
Juliet Shen, responsable produit chez ROOST
Notre vision à long terme pour Sentinel va au-delà de la conversation. Les principes d'utilisation des représentations vectorielles et de la mesure contrastive sont hautement adaptables. Nous explorons et développons activement des capacités permettant d'appliquer ces techniques à un éventail plus large d'interactions avec les utilisateurs, en vue d'une compréhension multimodale — couvrant le texte, l'image, la vidéo et bien plus encore. En analysant ces signaux conjointement, nous espérons parvenir à une compréhension plus globale et plus solide du comportement des utilisateurs, afin de mieux identifier les risques potentiels pour la sécurité que les systèmes monomodaux pourraient ne pas détecter. 
Dans les coulisses de la technologie : comment Sentinel permet une détection préventive

Pour permettre à notre système de modération d'agir rapidement, avant que l'intention de nuire ne se concrétise, Sentinel doit exécuter l'ensemble du pipeline d'analyse en temps quasi réel, à très grande échelle, sur plus de 6 milliards de messages de chat chaque jour. Sentinel capture en continu les conversations textuelles sous forme d'instantanés d'une minute. Les messages sont automatiquement analysés par le ML, dans le seul but d'identifier les dangers potentiels, tels que le grooming ou la mise en danger d'enfants. De plus, nous agrégons ces informations au fil du temps, identifiant les cas et les schémas préoccupants afin que des analystes humains puissent les évaluer et mener des enquêtes. 

Contrairement aux outils qui s’appuient sur des règles statiques et des exemples étiquetés, Sentinel utilise un apprentissage auto-supervisé pour apprendre à repérer — et à généraliser — les schémas de communication au fur et à mesure qu’ils se produisent. Cela permet à Sentinel d’identifier les menaces nouvelles et en constante évolution.

L'équipe y est parvenue en développant deux indices. L'un est constitué des communications d'utilisateurs qui échangent des messages sûrs et inoffensifs : l'indice positif. L'autre est composé des communications qui ont été supprimées parce que nous avons déterminé qu'elles constituaient des violations de la politique relative à la mise en danger des enfants : l'indice négatif. Cette approche contrastive aide le système à généraliser et à repérer les menaces en évolution, même si elles ne correspondent pas exactement aux schémas de communication précédemment détectés dans l'indice. L'un des principaux avantages de Sentinel est qu'il ne nécessite pas un grand nombre d'exemples pour fonctionner. Cela est particulièrement important compte tenu de la faible prévalence des exemples négatifs. Notre système de production actuel fonctionne avec seulement 13 000 exemples dans l'index négatif, tout en identifiant avec succès les dangers potentiels.   

How Sentinel fits into our overall safety system.

L'Index positif

Pour construire l'index positif, nous utilisons un échantillon sélectionné d'historiques de discussion provenant d'utilisateurs n'ayant aucun antécédent de violation des normes communautaires en matière de sécurité et faisant preuve d'un engagement positif constant et de longue date sur Roblox. En utilisant cet échantillon sélectionné d'historiques de chat Roblox, plutôt que des ensembles de données textuelles génériques, nous avons permis à Sentinel d'apprendre de nouveaux argots ainsi que des schémas et des styles linguistiques spécifiques à Roblox. Cela aide le système à effectuer des comparaisons plus précises, réduisant ainsi les faux positifs et lui permettant de mieux distinguer les communications typiques de Roblox des communications contraires aux règles.

L'Index négatif

L'index négatif est constitué de conversations examinées par nos modérateurs humains, dans lesquelles nous avons trouvé des preuves manifestes de violations de la politique relative à la mise en danger des enfants (pour lesquelles nous avons déjà pris des mesures). Lorsqu'un utilisateur présente une activité persistante et préoccupante, nous identifions des extraits spécifiques de ces conversations comme des exemples de communication préjudiciable. Ces segments marqués sont transformés en vecteurs d'intégration et ajoutés à l'index négatif. Grâce à cet apprentissage, Sentinel apprend à aller au-delà du simple signalement de certains mots ou expressions ; il apprend à partir des schémas contextuels et des progressions que suivent les conversations ayant une réelle intention de nuire. De ce fait, le système peut reconnaître des communications préjudiciables que nos autres systèmes de modération par IA pourraient ne pas détecter, même lorsqu'elles semblent subtiles. 

Par exemple, des messages simples tels que « Salut, comment vas-tu ? » correspondraient à l’index positif car le langage est inoffensif. Un message comme « D’où viens-tu ? » correspondrait à l’index négatif car il correspond aux schémas de conversations pouvant mener à une manipulation. Le système compare les nouveaux messages à ces indices, et s’il constate qu’un utilisateur demande « D’où viens-tu ? », il peut commencer à recueillir davantage d’informations pour voir si la conversation continue sur une voie négative. Alors qu’un seul message ne suffirait pas à justifier un signalement pour examen humain, un schéma récurrent le justifierait.

Mesure contrastive

Cette approche de mesure contrastive s'inspire de SimCLR, un cadre d'apprentissage auto-supervisé qui utilise la mesure contrastive pour entraîner des modèles de représentation d'images sans données étiquetées. Nous avons adapté cette technique pour qu'elle fonctionne avec des données textuelles et vocales, permettant ainsi à Sentinel de comprendre ce que dit un utilisateur et dans quelle mesure cela correspond ou s'écarte des modèles connus. Ce processus se déroule en trois étapes : l'évaluation de l'interaction, le suivi des modèles et la prise de mesures.

Mesure des interactions individuelles : chaque message est converti en un encodage, ou vecteur, qui capture les caractéristiques sémantiques et communicationnelles de l'action. Sentinel compare cet encodage aux indices positifs et négatifs. À l'aide de la similarité cosinus, le système détermine ensuite à quel indice l'interaction se rapproche le plus.

Si l'interaction correspond davantage aux modèles nuisibles de l'index négatif, elle se voit attribuer un indicateur de risque plus élevé. Les messages qui ne correspondent de manière significative ni aux modèles de communication sûrs ni aux modèles nuisibles sont filtrés, afin que le système puisse se concentrer uniquement sur les interactions qui comportent un signal potentiel. Cela permet de réduire les faux positifs et d'améliorer la précision de la mesure des interactions au fil du temps. 

Suivre les modèles en tenant compte de l’asymétrie, pas seulement des moyennes : les acteurs malveillants masquent souvent leurs intentions en les mélangeant à du contenu inoffensif. Si nous nous contentions de calculer la moyenne des mesures d’un utilisateur au fil du temps, les messages négatifs que nous voulons détecter risqueraient de se perdre dans le bruit. Au lieu de cela, Sentinel examine la distribution des mesures au fil du temps et évalue l’asymétrie statistique — une méthode permettant de détecter si des messages rares et à haut risque font grimper le profil de risque.

Cela nous aide à détecter les premiers signes d'une escalade vers une communication dangereuse, même si la plupart des interactions semblent inoffensives. Lorsque nous analysons l'asymétrie, nous tenons également compte du volume. Les utilisateurs très actifs peuvent sembler plus risqués car leurs communications présentent un nombre absolu plus élevé de correspondances. En mettant l’accent sur l’asymétrie statistique plutôt que sur le volume global, nous pouvons éviter les faux positifs concernant des utilisateurs bavards mais respectueux des règles. Grâce à cela, Sentinel n’est pas seulement évolutif, il est plus précis, capable de traiter de vastes flux de communication pour trouver les signaux rares mais critiques qui nous aident à détecter l’intention de nuire. 

Du signal à l'action : à mesure que davantage d'interactions sont mesurées, le système établit un profil de risque dynamique. Lorsqu'un comportement d'utilisateur présente une forte corrélation avec des communications à visée malveillante, ou un biais évoluant dans cette direction, Sentinel déclenche un signal d'alerte pour un examen et une enquête approfondis.