Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content

Membuka Sumber Kode Roblox Sentinel: Pendekatan Kami dalam Deteksi Risiko Preventif

Menggunakan AI untuk Membantu Mendeteksi Pola Obrolan yang Tidak Normal Sejak Dini

  • Setiap hari, lebih dari 100 juta pengguna dari segala usia menikmati pengalaman yang aman dan positif di Roblox.
  • Kami berupaya menjadikan sistem kami seaman mungkin secara default, terutama bagi pengguna termuda kami. Kami melakukannya dengan kebijakan yang sangat ketat dan memanfaatkan AI untuk menyaring pesan yang tidak pantas dalam obrolan yang kami deteksi, termasuk informasi identitas pribadi (di luar Koneksi Tepercaya). Kami secara proaktif memoderasi konten dan tidak mengizinkan berbagi gambar dunia nyata dalam obrolan.
  • Tentu saja, tidak ada sistem yang sempurna, dan salah satu tantangan terbesar di industri ini adalah mendeteksi bahaya kritis seperti potensi bahaya terhadap anak. Serangkaian obrolan ramah dan pesan dukungan mungkin memiliki makna yang berbeda seiring berjalannya riwayat percakapan yang lebih panjang, terutama ketika terjadi antara pengguna dari kelompok usia yang berbeda. 
  • Kami telah mengembangkan Roblox Sentinel, sebuah sistem AI yang dibangun berdasarkan pembelajaran kontrasif yang membantu kami mendeteksi sinyal awal potensi bahaya terhadap anak, seperti grooming, sehingga kami dapat menyelidiki lebih cepat dan, jika relevan, melaporkannya kepada penegak hukum.
  • Pada paruh pertama tahun 2025, Sentinel membantu tim kami mengirimkan sekitar 1.200 laporan tentang upaya potensial eksploitasi anak ke National Center for Missing and Exploited Children. Ini mencakup upaya untuk mengelabui mekanisme penyaringan kami dan langkah-langkah pengamanan lainnya.
  • Kami sangat antusias untuk merilis Roblox Sentinel sebagai perangkat lunak sumber terbuka, dan kami secara aktif mencari keterlibatan komunitas, yang kami harapkan akan membantu membangun internet yang lebih aman.

Menghabiskan waktu bersama teman dan bersaing dengan pemain lain adalah komponen utama Roblox, dan komunikasi merupakan inti dari aktivitas tersebut. Faktanya, setiap hari, lebih dari 111 juta pengguna mengunjungi Roblox, di mana komunitas mengirimkan rata-rata 6,1 miliar pesan obrolan dan menghasilkan 1,1 juta jam komunikasi suara dalam puluhan bahasa. Komunikasi ini mencerminkan dunia nyata—mayoritas besarnya adalah obrolan sehari-hari, mulai dari percakapan santai hingga pembahasan gameplay, namun sejumlah kecil pelaku jahat berusaha mengelabui sistem kami dan mungkin mencoba menyebabkan kerugian. 

Bulan lalu, kami membagikan visi kami mengenai komunikasi berdasarkan usia. Kami berupaya membuat sistem kami seaman mungkin secara default, terutama bagi pengguna termuda kami. Misalnya, kami tidak mengizinkan berbagi gambar atau video antar-pengguna melalui obrolan. Sistem kami, meskipun tidak sempurna, terus ditingkatkan dan dirancang untuk secara proaktif memblokir informasi pribadi yang dapat diidentifikasi—seperti nomor telepon dan nama pengguna—serta obrolan antara pengguna yang belum diverifikasi usianya sangat difilter (dan tidak diizinkan bagi pengguna di bawah 13 tahun). Roblox adalah salah satu platform terbesar yang mewajibkan estimasi usia wajah agar dapat berobrol lebih bebas dengan orang-orang yang Anda kenal. Tujuan kami adalah memimpin dunia dalam keamanan permainan daring, dan kami berkomitmen untuk membuka sumber teknologi keamanan utama.

Hari ini, kami merilis model sumber terbuka terbaru kami, Sentinel, sebuah sistem AI untuk membantu mendeteksi interaksi yang berpotensi membahayakan anak. Jauh sebelum sesuatu menjadi eksplisit, Sentinel memungkinkan kami mendeteksi dan menyelidiki pola-pola halus sejak dini, dan jika relevan, melaporkannya kepada penegak hukum.

Sentinel telah beroperasi di Roblox sejak akhir 2024 dan merupakan tambahan terbaru pada perangkat keamanan sumber terbuka kami. Pada paruh pertama tahun 2025, 35% kasus yang kami deteksi disebabkan oleh pendekatan proaktif ini, yang dalam banyak kasus berhasil mendeteksinya sebelum laporan pelecehan dapat diajukan. Ketika digabungkan dengan sistem moderasi kami yang lain, Sentinel memperluas gudang alat yang kami miliki untuk mendeteksi dan menindak pelanggaran yang berpotensi serius ini. 

Memahami Tantangannya
Ancaman terhadap anak merupakan tantangan di seluruh industri, sehingga teknologi baru dan kolaborasi terbuka menjadi sangat berharga. Grooming online—pembentukan kepercayaan dan ikatan emosional secara sistematis dengan tujuan akhir eksploitasi—pada dasarnya merupakan proses yang halus dan bertahap. Interaksi ini jarang terjadi dan sering kali dimulai sebagai serangkaian obrolan ramah, pesan dukungan, dan minat yang sama. Pesan yang awalnya tampak tidak berbahaya dapat memiliki makna yang berbeda seiring berjalannya riwayat percakapan yang lebih panjang. Pelaku kejahatan sering kali menggunakan bahasa yang halus, tidak langsung, atau terselubung—dengan sengaja membuat pola yang sulit dideteksi, bahkan oleh peninjau manusia. Oleh karena itu, sistem deteksi kami terus berkembang untuk mengimbangi cara-cara baru yang digunakan pelaku kejahatan untuk menghindari sistem kami. Selain itu, data pelatihan untuk grooming sangat langka—sehingga menyulitkan pelatihan sistem pembelajaran mesin.
Dampak Proaktif dan Wawasan Operasional

Sentinel saat ini beroperasi secara skala besar di lingkungan produksi. Pada paruh pertama tahun 2025, kemampuan proaktifnya telah membantu tim kami mengirimkan sekitar 1.200 laporan ke Pusat Nasional untuk Anak-Anak yang Hilang dan Dieksploitasi. Meskipun kami selalu memiliki ruang untuk perbaikan, kemampuan deteksi dini Sentinel sudah membantu kami mengidentifikasi dan menyelidiki pelaku potensial lebih awal dalam proses, saat pesan masih samar dan sebelum terungkap melalui laporan penyalahgunaan yang dikirimkan pengguna. 

Ahli manusia sangat penting untuk menyelidiki dan menindaklanjuti kasus-kasus yang terdeteksi oleh Sentinel. Analis terlatih, biasanya mantan agen CIA atau FBI dan ahli lainnya, meninjau kasus-kasus yang ditandai oleh Sentinel sebagai berpotensi melanggar. Keputusan yang diambil oleh para analis ini menciptakan siklus umpan balik yang memungkinkan kami untuk terus menyempurnakan dan memperbarui contoh, indeks, dan set pelatihan. Proses "human-in-the-loop" ini sangat penting untuk membantu Sentinel beradaptasi dan mengikuti pola serta metode baru yang terus berkembang dari pelaku jahat yang berusaha menghindari deteksi kami.

Sentinel merupakan bagian penting dari sistem keamanan berlapis Roblox yang lebih besar, yang menggabungkan alat AI inovatif dan ribuan ahli manusia. Saat ini, Sentinel juga menjadi bagian dari kit alat keamanan sumber terbuka Roblox. Kami percaya bahwa menciptakan dunia digital yang lebih aman adalah tanggung jawab bersama. Dengan membuka akses sistem keamanan seperti Sentinel, berbagi pendekatan kami, dan menjadi anggota pendiri organisasi seperti Robust Open Online Safety Tools (ROOST) dan proyek Lantern dari Tech Coalition, kami berharap dapat berkontribusi pada kemajuan bersama praktik keamanan online dan komunitas online yang bergantung padanya.

“Saat ini, terlalu banyak platform yang tidak memiliki akses ke alat canggih yang diperlukan untuk mengidentifikasi dan mencegah bahaya daring, terutama yang menargetkan anak-anak. Di ROOST, kami percaya bahwa perlindungan keamanan yang kuat harus dapat diakses oleh siapa pun yang berkomitmen untuk melindungi penggunanya, dan kami sangat antusias bahwa Roblox berkontribusi dengan menyediakan lebih banyak alat yang tersedia secara terbuka di bidang kepercayaan dan keamanan.”
Juliet Shen, Kepala Produk di ROOST
Visi jangka panjang kami untuk Sentinel melampaui percakapan. Prinsip penggunaan embedding dan pengukuran kontrastif sangat fleksibel. Kami secara aktif mengeksplorasi dan mengembangkan kemampuan untuk menerapkan teknik-teknik ini pada rentang interaksi pengguna yang lebih luas, menuju pemahaman multimodal—meliputi teks, gambar, video, dan lainnya. Dengan menganalisis sinyal-sinyal ini secara bersamaan, kami berharap dapat mencapai pemahaman yang lebih holistik dan kokoh terhadap perilaku pengguna sehingga kami dapat mengidentifikasi potensi risiko keamanan yang mungkin terlewatkan oleh sistem berbasis satu mode. 
Di Balik Layar Teknologi: Bagaimana Sentinel Mendukung Deteksi Preventif

Untuk membantu sistem moderasi kami bertindak dengan cepat, sebelum niat untuk menyakiti melampaui sekadar niat, Sentinel perlu menjalankan seluruh alur analisis secara hampir real-time—dalam skala besar, mencakup lebih dari 6 miliar pesan obrolan setiap hari. Sentinel secara terus-menerus menangkap teks obrolan dalam potongan data setiap satu menit. Pesan-pesan tersebut dianalisis secara otomatis oleh ML, dengan tujuan tunggal untuk mengidentifikasi potensi bahaya, seperti grooming atau bahaya terhadap anak. Selain itu, kami mengumpulkan informasi ini dari waktu ke waktu, mengidentifikasi kasus dan pola yang mengkhawatirkan untuk dinilai dan diselidiki oleh analis manusia. 

Berbeda dengan alat yang mengandalkan aturan statis dan contoh berlabel, Sentinel menggunakan pelatihan tanpa pengawasan (self-supervised training) untuk belajar mengenali—dan menggeneralisasi—pola komunikasi saat terjadi. Hal ini memungkinkan Sentinel mengidentifikasi ancaman baru dan yang terus berkembang.

Tim ini mencapainya dengan mengembangkan dua indeks. Satu terdiri dari komunikasi dari pengguna yang berinteraksi dengan pesan yang aman dan tidak berbahaya—indeks positif. Yang lain terdiri dari komunikasi yang dihapus karena kami menentukan bahwa mereka melanggar kebijakan bahaya anak—indeks negatif. Pendekatan kontras ini membantu sistem menggeneralisasi dan mendeteksi ancaman yang berkembang bahkan jika mereka tidak persis sesuai dengan pola komunikasi yang sebelumnya terdeteksi dari indeks. Salah satu keunggulan utama Sentinel adalah sistem ini tidak memerlukan sejumlah besar contoh untuk berfungsi. Hal ini sangat penting mengingat rendahnya prevalensi contoh negatif. Sistem produksi kami saat ini beroperasi hanya dengan 13.000 contoh dalam indeks negatif, namun tetap berhasil mengidentifikasi potensi bahaya.   

How Sentinel fits into our overall safety system.

Indeks Positif

Untuk membangun indeks positif, kami menggunakan sampel riwayat obrolan yang telah dikurasi dari pengguna yang tidak memiliki riwayat pelanggaran Standar Komunitas terkait keamanan dan keterlibatan positif yang konsisten dan jangka panjang di Roblox. Dengan menggunakan sampel riwayat obrolan Roblox yang telah dikurasi ini, alih-alih dataset teks umum, kami dapat membantu Sentinel mempelajari slang baru serta pola dan gaya bahasa yang khas Roblox. Hal ini membantu sistem melakukan perbandingan yang lebih akurat, mengurangi hasil positif palsu, dan memungkinkannya membedakan dengan lebih baik antara komunikasi Roblox yang umum dan komunikasi yang melanggar.

Indeks Negatif

Indeks negatif dibangun dari percakapan yang ditinjau oleh moderator manusia kami, di mana kami menemukan bukti jelas pelanggaran kebijakan bahaya terhadap anak (yang telah kami tangani). Ketika interaksi pengguna menunjukkan aktivitas yang berkelanjutan dan mengkhawatirkan, kami menandai potongan-potongan spesifik dari percakapan tersebut sebagai contoh komunikasi yang merugikan. Segmen yang diberi label tersebut diubah menjadi vektor embedding dan ditambahkan ke indeks negatif. Dengan pelatihan ini, Sentinel belajar untuk melampaui sekadar menandai kata atau frasa tertentu; sistem ini belajar dari pola konteks dan perkembangan yang diikuti oleh percakapan dengan niat merugikan yang sebenarnya. Karena itu, sistem ini dapat mengenali komunikasi berbahaya yang mungkin tidak terdeteksi oleh sistem moderasi AI kami yang lain, bahkan ketika komunikasi tersebut tampak halus. 

Misalnya, pesan sederhana seperti “Hai, apa kabar?” akan cocok dengan indeks positif karena bahasanya tidak berbahaya. Pesan seperti “Dari mana asalmu?” akan cocok dengan indeks negatif karena sesuai dengan pola percakapan yang berpotensi menjadi upaya pemanasan (grooming). Sistem ini membandingkan pesan baru dengan indeks-indeks tersebut, dan jika melihat pengguna bertanya “Dari mana asalmu?”, sistem mungkin mulai mengumpulkan informasi lebih lanjut untuk melihat apakah percakapan tersebut berlanjut ke arah negatif. Meskipun satu pesan saja tidak cukup untuk ditandai agar ditinjau oleh manusia, pola yang berlanjut akan cukup.

Pengukuran Kontrastif

Pendekatan pengukuran kontras ini terinspirasi oleh SimCLR, sebuah kerangka kerja pembelajaran mandiri yang menggunakan pengukuran kontras untuk melatih model representasi gambar tanpa data berlabel. Kami telah mengadaptasi teknik ini agar dapat digunakan dengan data teks dan suara, sehingga Sentinel dapat memahami apa yang dikatakan pengguna dan bagaimana hal itu sesuai atau menyimpang dari pola yang diketahui. Proses ini bekerja dalam tiga tahap: penilaian interaksi, pelacakan pola, dan pengambilan tindakan.

Pengukuran Interaksi Individu: Setiap pesan dikonversi menjadi embedding, atau vektor yang menangkap fitur semantik dan komunikasi dari tindakan tersebut. Sentinel membandingkan embedding ini dengan indeks positif dan negatif. Dengan menggunakan kesamaan kosinus, sistem kemudian mengukur indeks mana yang lebih dekat dengan interaksi tersebut.

Jika interaksi lebih selaras dengan pola berbahaya dalam indeks negatif, interaksi tersebut menerima indikator risiko yang lebih tinggi. Pesan yang tidak secara signifikan selaras dengan pola komunikasi aman atau berbahaya disaring, sehingga sistem dapat fokus hanya pada interaksi yang membawa sinyal potensial. Hal ini dapat membantu mengurangi false positive dan meningkatkan akurasi pengukuran interaksi seiring waktu. 

Melacak Pola dengan Skewness, Bukan Hanya Rata-rata: Pelaku jahat sering menyamarkan niat mereka dengan mencampurkannya di antara konten yang tidak berbahaya. Jika kita hanya menghitung rata-rata pengukuran pengguna seiring waktu, pesan negatif yang ingin kita deteksi bisa tersembunyi di antara kebisingan. Sebaliknya, Sentinel menganalisis distribusi pengukuran seiring waktu dan mengukur skewness statistik—cara mendeteksi apakah ada pesan berisiko tinggi yang jarang terjadi yang menarik profil risiko ke atas.

Hal ini membantu kami mendeteksi tanda-tanda awal eskalasi menuju komunikasi berbahaya, meskipun sebagian besar interaksi tampak tidak berbahaya. Saat menganalisis kemiringan, kami juga menyesuaikan dengan volume. Pengguna yang sangat aktif mungkin terlihat lebih berisiko karena komunikasi mereka menunjukkan jumlah kecocokan absolut yang lebih besar. Dengan menekankan kemiringan statistik daripada volume keseluruhan, kami dapat menghindari hasil positif palsu yang melibatkan pengguna yang banyak bicara namun patuh. Dengan ini, Sentinel tidak hanya skalabel, tetapi juga lebih presisi, mampu memproses aliran komunikasi yang luas untuk menemukan sinyal langka namun kritis yang membantu kami mendeteksi niat untuk menyakiti. 

Beralih dari Sinyal ke Tindakan: Seiring dengan semakin banyaknya interaksi yang diukur, sistem ini membangun profil risiko yang dinamis. Ketika pola pengguna menunjukkan kesesuaian yang kuat dengan komunikasi berniat merugikan, atau kemiringan yang bergerak ke arah itu, Sentinel memicu tanda untuk peninjauan dan investigasi lebih lanjut.