Roblox Sentinel의 오픈 소스화: 선제적 위험 탐지를 위한 우리의 접근 방식
AI를 활용한 비정상적인 채팅 패턴 조기 탐지

- 매일 전 세계 1억 명 이상의 모든 연령대 사용자가 Roblox에서 안전하고 긍정적인 경험을 하고 있습니다.
- 우리는 특히 가장 어린 사용자를 위해 시스템이 기본적으로 최대한 안전하도록 노력하고 있습니다. 이를 위해 매우 엄격한 정책을 적용하고, AI를 활용하여 (신뢰할 수 있는 연결(Trusted Connections) 외부의) 개인 식별 정보를 포함하여 채팅에서 감지된 부적절한 메시지를 필터링합니다. 또한 콘텐츠를 선제적으로 관리하며, 채팅에서 실제 세계의 이미지를 공유하는 것을 허용하지 않습니다.
- 물론 완벽한 시스템은 없으며, 업계에서 가장 큰 과제 중 하나는 아동 위험 노출과 같은 중대한 피해를 감지하는 것입니다. 일련의 친근한 대화나 지지적인 메시지도, 특히 서로 다른 연령대의 사용자 간에 이루어질 경우, 긴 대화 기록을 통해 보면 전혀 다른 의미를 띨 수 있습니다.
- 저희는 대조 학습을 기반으로 한 AI 시스템인 'Roblox Sentinel'을 개발했습니다. 이 시스템은 그루밍(grooming)과 같은 잠재적인 아동 위험 신호를 조기에 탐지하는 데 도움을 주어, 더 신속하게 조사하고 필요한 경우 법 집행 기관에 신고할 수 있게 해줍니다.
- 2025년 상반기 동안 센티넬은 우리 팀이 아동 착취 시도 의심 사례 약 1,200건을 미국 실종 및 착취 아동 센터(National Center for Missing and Exploited Children)에 신고하는 데 기여했습니다. 여기에는 당사의 필터링 메커니즘 및 기타 안전 장치를 우회하려는 시도도 포함됩니다.
- 로블록스 센티넬을 오픈소스로 공개하게 되어 기쁘게 생각하며, 더 안전한 인터넷 환경을 조성하는 데 도움이 되기를 바라며 커뮤니티의 적극적인 참여를 기다리고 있습니다.
친구들과 시간을 보내고 다른 플레이어들과 경쟁하는 것은 로블록스의 핵심 요소이며, 의사소통은 이러한 활동의 중심에 있습니다. 실제로 매일 1억 1,100만 명 이상의 사용자가 로블록스를 방문하며, 이곳에서 커뮤니티는 평균 61억 건의 채팅 메시지를 주고받고 수십 개 언어로 110만 시간의 음성 대화를 나눕니다. 이러한 소통은 현실 세계를 반영합니다. 대다수는 일상적인 대화나 게임 플레이에 대한 논의와 같은 평범한 대화이지만, 소수의 악의적인 사용자들은 당사의 시스템을 우회하여 해를 입히려 시도하기도 합니다.
지난달, 저희는 연령 기반 커뮤니케이션에 대한 비전을 공유했습니다. 특히 가장 어린 사용자를 위해, 시스템이 기본적으로 최대한 안전하도록 노력하고 있습니다. 예를 들어, 채팅을 통한 사용자 간 이미지나 동영상 공유는 허용하지 않습니다. 저희 시스템은 완벽하지는 않지만 지속적으로 개선되고 있으며, 전화번호나 사용자 이름과 같은 개인 식별 정보를 사전에 차단하도록 설계되어 있습니다. 또한 연령 인증을 받지 않은 사용자 간의 채팅은 엄격하게 필터링되며 (13세 미만 사용자는 아예 허용되지 않습니다). 로블록스는 지인들과 더 자유롭게 채팅하기 위해 얼굴 연령 추정을 요구하는 최대 규모의 플랫폼 중 하나입니다. 저희의 목표는 온라인 게임 안전 분야에서 세계를 선도하는 것이며, 핵심 안전 기술을 오픈소스로 공개하는 데 전념하고 있습니다.
오늘, 저희는 아동에게 위험을 초래할 수 있는 상호작용을 탐지하는 데 도움을 주는 AI 시스템인 최신 오픈소스 모델 '센티넬(Sentinel)'을 공개합니다. 문제가 노골적으로 드러나기 훨씬 전에, 센티넬을 통해 미묘한 패턴을 조기에 탐지하고 조사하며, 필요한 경우 법 집행 기관에 신고할 수 있습니다.
센티넬은 2024년 말부터 로블록스에서 운영되어 왔으며, 저희 오픈소스 안전 툴킷에 새롭게 추가된 구성 요소입니다. 2025년 상반기, 우리가 탐지한 사례의 35%는 이러한 선제적 접근 방식 덕분이었으며, 많은 경우 학대 신고가 접수되기 전에 이를 적발할 수 있었습니다. 센티넬은 당사의 다른 관리 시스템과 결합되어, 잠재적으로 심각한 위반 사항을 탐지하고 이에 대응하기 위한 도구들의 범위를 확장합니다.
과제 이해하기
선제적 영향 및 운영 인사이트
Sentinel은 현재 대규모로 운영 중입니다. 2025년 상반기 동안, 센티넬의 사전 대응 기능을 통해 우리 팀은 미국 실종 및 학대 아동 센터(National Center for Missing and Exploited Children)에 약 1,200건의 신고를 제출할 수 있었습니다. 개선의 여지는 항상 있겠지만, 센티넬의 조기 탐지 기능은 메시지가 아직 미묘한 단계에 있고 사용자가 제출한 악용 신고를 통해 표면화되기 전인 초기 단계에서 잠재적인 악의적 행위자를 식별하고 조사하는 데 이미 큰 도움이 되고 있습니다.
센티넬이 탐지한 사례를 조사하고 개입하는 데 있어 전문 인력은 필수적입니다. 주로 전직 CIA 또는 FBI 요원 및 기타 전문가로 구성된 훈련된 분석가들이 센티넬이 잠재적 위반 사례로 표시한 사건들을 검토합니다. 이 분석가들이 내리는 결정은 피드백 루프를 형성하여, 우리가 예시, 인덱스 및 훈련 데이터를 지속적으로 개선하고 업데이트할 수 있게 합니다. 이러한 '인간 개입(human-in-the-loop)' 프로세스는 센티넬이 탐지를 회피하려는 악의적 행위자들의 새롭고 진화하는 패턴 및 수법에 적응하고 이를 따라잡는 데 필수적입니다.
센티넬은 혁신적인 AI 도구와 수천 명의 전문 인력을 결합한 로블록스의 다층적 안전 시스템에서 중요한 부분을 차지합니다. 또한 현재 로블록스 오픈소스 안전 툴킷의 일부이기도 합니다. 우리는 더 안전한 디지털 세상을 만드는 것이 모두의 공동 책임이라고 믿습니다. 센티넬과 같은 안전 시스템을 오픈소스로 공개하고, 우리의 접근 방식을 공유하며, ROOST(Robust Open Online Safety Tools) 및 테크 코얼리션(Tech Coalition)의 랜턴(Lantern) 프로젝트와 같은 조직의 창립 멤버가 됨으로써, 우리는 온라인 안전 관행과 이를 기반으로 하는 온라인 커뮤니티의 공동 발전에 기여하고자 합니다.
“오늘날 너무 많은 플랫폼이 온라인 상의 유해 콘텐츠, 특히 아동을 대상으로 한 유해 콘텐츠를 식별하고 예방하는 데 필요한 정교한 도구를 갖추지 못하고 있습니다. ROOST는 사용자 보호에 전념하는 누구나 강력한 안전 보호 기능을 이용할 수 있어야 한다고 믿으며, Roblox가 신뢰 및 안전 분야에 더 많은 공개 도구를 제공하게 되어 매우 기쁩니다.”
기술 속으로: 센티넬이 선제적 탐지를 가능하게 하는 방법
유해 의도가 실제 행동으로 이어지기 전에 당사의 관리 시스템이 신속하게 대응할 수 있도록, Sentinel은 매일 60억 건 이상의 채팅 메시지를 대상으로 대규모의 전체 분석 파이프라인을 거의 실시간으로 실행해야 합니다. Sentinel은 1분 단위의 스냅샷으로 텍스트 채팅을 지속적으로 수집합니다. 메시지는 머신러닝(ML)을 통해 자동으로 분석되며, 그 유일한 목적은 그루밍이나 아동 위험 노출과 같은 잠재적 위협을 식별하는 것입니다. 또한, 우리는 이 정보를 시간 경과에 따라 집계하여 우려되는 사례와 패턴을 파악하고, 이를 인간 분석가가 평가하고 조사할 수 있도록 합니다.
정적 규칙과 라벨링된 예시에 의존하는 도구들과 달리, 센티넬은 자체 감독 학습을 통해 통신 패턴이 발생하는 즉시 이를 식별하고 일반화하는 방법을 학습합니다. 이를 통해 센티넬은 새롭게 등장하고 진화하는 위협을 식별할 수 있습니다.
팀은 두 가지 지표를 개발하여 이를 달성했습니다. 하나는 안전하고 무해한 메시징을 주고받는 사용자들의 소통으로 구성된 '양성 지표'입니다. 다른 하나는 아동 위험 정책 위반으로 판단되어 삭제된 소통으로 구성된 '음성 지표'입니다. 이러한 대조적 접근 방식은 시스템이 지표에서 이전에 탐지된 소통 패턴과 정확히 일치하지 않더라도 진화하는 위협을 일반화하고 식별하는 데 도움이 됩니다. 센티넬의 주요 장점 중 하나는 작동에 많은 양의 예시 데이터가 필요하지 않다는 점입니다. 이는 부정적 예시 데이터의 발생 빈도가 낮은 점을 고려할 때 특히 중요합니다. 현재 운영 중인 시스템은 부정적 인덱스에 단 13,000개의 예시 데이터만 포함되어 있음에도 불구하고 잠재적인 위험을 성공적으로 식별하고 있습니다.

포지티브 인덱스
네거티브 인덱스
부정 인덱스는 당사의 인간 운영진이 검토한 대화 내용을 바탕으로 구축되며, 여기에는 아동 위험 방치 정책 위반에 대한 명백한 증거가 발견된 사례(이미 조치를 취한 경우)가 포함됩니다. 사용자의 상호작용에서 지속적이고 우려스러운 활동이 감지될 경우, 해당 대화의 특정 부분을 유해한 의사소통의 예시로 분류합니다. 이렇게 표시된 대화 조각들은 임베딩 벡터로 변환되어 부정 인덱스에 추가됩니다. 이러한 훈련을 통해 Sentinel은 단순히 특정 단어나 문구를 표시하는 것을 넘어, 실제 해악을 의도한 대화에서 나타나는 맥락적 패턴과 진행 과정을 학습합니다. 덕분에 이 시스템은 다른 AI 관리 시스템이 감지하지 못할 수도 있는, 미묘하게 나타나는 유해한 의사소통도 인식할 수 있습니다.
예를 들어, “안녕, 잘 지내?”와 같은 단순한 메시지는 언어가 무해하므로 긍정 인덱스에 일치합니다. 반면 “어디서 왔어?”와 같은 메시지는 잠재적인 그루밍 대화의 패턴과 일치하므로 부정 인덱스에 포함됩니다. 시스템은 새로운 메시지를 이러한 지수와 비교하며, 사용자가 “어디서 왔어요?”라고 묻는 것을 감지하면 대화가 부정적인 방향으로 이어지는지 확인하기 위해 추가 정보를 수집하기 시작할 수 있습니다. 단 한 번의 메시지로는 사람이 검토하도록 표시하기에는 부족하겠지만, 이러한 패턴이 지속된다면 검토 대상이 될 수 있습니다.
대조적 측정
이러한 대조적 측정 접근 방식은 라벨링된 데이터 없이 대조적 측정을 활용해 이미지 표현 모델을 훈련하는 자기 지도 학습 프레임워크인 SimCLR에서 영감을 받았습니다. 우리는 이 기술을 텍스트 및 음성 데이터에 적용하여, Sentinel이 사용자의 말을 이해하고 그것이 알려진 패턴과 일치하는지 또는 어긋나는지를 파악할 수 있도록 했습니다. 이 과정은 상호작용 점수 부여, 패턴 추적, 조치 실행의 세 단계로 진행됩니다.
개별 상호작용 측정: 각 메시지는 임베딩, 즉 해당 행동의 의미적 및 의사소통적 특징을 포착하는 벡터로 변환됩니다. Sentinel은 이 임베딩을 긍정 및 부정 인덱스와 비교합니다. 이후 시스템은 코사인 유사도를 사용하여 해당 상호작용이 어느 인덱스에 더 가까운지 측정합니다.
상호작용이 부정 지수에 포함된 유해한 패턴과 더 일치할 경우, 더 높은 위험 지표가 부여됩니다. 안전한 의사소통 패턴이나 유해한 패턴 중 어느 쪽과도 유의미하게 일치하지 않는 메시지는 필터링되어 제거되므로, 시스템은 잠재적 신호를 포함하는 상호작용에만 집중할 수 있습니다. 이는 오탐을 줄이고 시간이 지남에 따라 상호작용 측정 정확도를 향상시키는 데 도움이 됩니다.
단순한 평균이 아닌 왜도(skewness)를 활용한 패턴 추적: 악의적인 행위자들은 종종 무해한 콘텐츠 속에 자신의 의도를 숨깁니다. 단순히 시간 경과에 따른 사용자의 측정값을 평균화한다면, 탐지하고자 하는 부정적인 메시지가 잡음 속에 묻힐 수 있습니다. 대신 Sentinel은 시간 경과에 따른 측정값의 분포를 살펴보고 통계적 왜도를 측정합니다. 이는 드물지만 고위험인 메시지가 위험 프로필을 상승시키고 있는지 감지하는 방법입니다.
이를 통해 대부분의 상호작용이 무해해 보일지라도 위험한 소통으로 비화될 조짐을 조기에 감지할 수 있습니다. 또한, 왜도를 분석할 때는 처리량에 따른 보정도 수행합니다. 활동량이 많은 사용자는 일치하는 메시지의 절대적인 수가 더 많기 때문에 위험해 보일 수 있습니다. 전체 양보다는 통계적 비대칭성을 강조함으로써, 수다스럽지만 규정을 준수하는 사용자와 관련된 오탐을 피할 수 있습니다. 이를 통해 Sentinel은 확장성이 뛰어나며, 더 정밀해져 방대한 커뮤니케이션 흐름을 처리하여 해악을 가하려는 의도를 탐지하는 데 도움이 되는 드물지만 중요한 신호를 찾아낼 수 있습니다.
신호에서 조치로: 더 많은 상호작용이 측정됨에 따라 시스템은 동적인 위험 프로필을 구축합니다. 사용자의 패턴이 가해 의도를 가진 커뮤니케이션과 강하게 일치하거나, 그 방향으로 치우치는 경향이 보일 경우, Sentinel은 심층 검토 및 조사를 위한 경고를 발령합니다.


