Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content

Inside the Tech – Memecahkan Masalah Pencarian Multibahasa & Semantik

Inside the Tech - Multilingual Search (Ravali K.) - v2
Inside the Tech adalah seri blog yang menyertai podcast Tech Talks kami. Dalam episode ke-19 podcast tersebut, CEO Roblox David Baszucki berbincang dengan Direktur Senior Produk Zhen Fang mengenai strategi internasional Roblox, serta tantangan teknis yang kami atasi untuk memastikan pengalaman yang disesuaikan secara lokal bagi puluhan juta orang di seluruh dunia. Dalam edisi Inside the Tech kali ini, kami berbincang dengan Manajer Teknik Ravali Kandur untuk mengetahui lebih lanjut tentang salah satu tantangan teknis tersebut, yaitu pencarian multibahasa dan semantik, serta bagaimana kerja tim Pertumbuhan membantu pengguna Roblox di seluruh dunia mencari—dan dengan cepat menemukan—apa pun yang mereka inginkan di platform kami.
Episode 19

Internasional

Bersama Zhen Fang, Kepala Divisi Internasional

Kepala Divisi Internasional Zhen Fang bergabung dengan CEO David Baszucki untuk membahas bagaimana kami berupaya menghadirkan pengalaman yang benar-benar disesuaikan secara lokal bagi setiap pengguna Roblox di seluruh dunia. Mulai dari terjemahan bahasa, opsi pembayaran, hingga konten yang relevan secara budaya, mereka akan mengeksplorasi bagaimana platform kami beradaptasi dengan komunitas global kami yang semakin berkembang.

Apa tantangan teknis terbesar yang sedang dihadapi tim Anda?

Hingga sekitar setahun yang lalu, pencarian Roblox menggunakan sistem leksikal untuk mencocokkan hasil dengan pencarian pengguna, yang berarti sistem tersebut hanya berfokus pada pencocokan teks. Namun, perilaku pencarian berubah dengan cepat dan pendekatan tersebut tidak lagi cukup untuk memberikan konten yang relevan kepada pengguna. Di saat yang sama, beberapa pengguna Roblox mungkin menggunakan ejaan yang salah dalam kueri mereka. Jadi, kami harus mampu menyarankan hasil yang sesuai dengan apa yang mereka cari, yang berarti memahami maksud mereka.

Masalah besar lainnya dalam pencarian adalah kurangnya data pelatihan lintas bahasa. Sebelum pencarian semantik, langkah pertama kami adalah memanfaatkan terjemahan mesin di dalam sistem Roblox. Kami mengindeks terjemahan tersebut dan kemudian melakukan pencocokan teks. Namun, hal itu tidak cukup untuk selalu menampilkan konten yang relevan kepada pengguna. Oleh karena itu, kami mengadopsi teknik ML yang lebih mutakhir bernama model guru-murid: model guru belajar dari sumber konteks terbesar kami untuk skenario spesifik apa pun. 

Bahasa Inggris adalah bahasa yang paling banyak digunakan di Roblox, itulah mengapa kami mempelajari sebanyak mungkin hubungan semantik dalam bahasa Inggris—model guru—dan kemudian kami menyaringnya ke model murid dengan memperluasnya ke bahasa lain. Ini membantu kami mengatasi masalah tersebut meskipun kami tidak memiliki banyak data dalam bahasa tertentu. Hal ini telah menyebabkan peningkatan 15% dalam jumlah permainan yang berasal dari pencarian di Jepang. 

Kami baru-baru ini berupaya untuk mendukung kueri katalog seperti "đua xe (balapan)" dengan lebih baik. Namun, pengguna semakin sering mengirimkan kueri panjang dan bebas bentuk, seperti, “Hei, saya ingat pernah memainkan game di mana ada naga dan seorang gadis yang bertarung dengannya. Bisakah Anda membantu saya menemukannya?” Hal ini menghadirkan tantangan teknis yang lebih besar dan kami terus meningkatkan sistem kami sejalan dengan hal ini.

Apa saja pendekatan inovatif untuk memasukkan lebih banyak konteks dan pencarian semantik?

Kami telah membangun sistem pencarian hibrida yang menggabungkan pencarian leksikal dengan teknik dan model ML yang memanfaatkan pencarian semantik serta pemahaman terhadap maksud kueri. Kami terus mengembangkan sistem kami untuk membangun pemahaman konteks, menangani kueri yang kompleks, dan menampilkan konten yang relevan.

Keajaiban pencarian semantik terletak pada embeddings, yang merupakan representasi kaya dari berbagai sinyal yang kami peroleh dari seluruh Roblox. Misalnya, kami mengintegrasikan sinyal seperti demografi pengguna, kueri pengguna, seberapa panjang kueri tersebut, atau aspek uniknya. 

Kami juga menganalisis sinyal konten, seperti pengalaman, item avatar, dan tingkat keterlibatan—seperti seberapa sering game ini dimainkan, berapa banyak pengguna yang memainkannya, dan dari berapa banyak negara? Ada juga faktor seperti monetisasi dan retensi, serta metadata seperti judul, deskripsi, atau pembuat pengalaman. Kami memproses semua ini melalui arsitektur berbasis BERT dan transformer, dan menggunakan Multilayer Perceptron di akhir untuk menghasilkan embeddings, yang menjadi sumber kebenaran kami. 

Inovasi lainnya adalah sistem pencarian kesamaan buatan kami sendiri. Saat seseorang melakukan pencarian, kami mengambil embedding yang sangat terkait, dan memeringkatnya untuk memastikan bahwa embedding tersebut relevan dengan apa yang dicari pengguna. Kemudian, kami menampilkan hasilnya kepada pengguna.

Apa saja hal-hal penting yang Anda pelajari dari pekerjaan teknis ini?

Setiap bahasa memiliki tantangan uniknya sendiri. Terutama dalam pencarian, kami perlu memahami apa yang dicari pengguna di berbagai belahan dunia agar dapat menampilkan hasil yang paling relevan. Kami harus memahami elemen-elemen bahasa yang berbeda. Misalnya, model transformer yang telah dilatih sebelumnya sangat penting untuk memahami berbagai dialek bahasa Jepang.

Kedua, pola kueri pencarian telah berubah cukup banyak dan kami harus terus mengembangkan tumpukan teknologi kami untuk mengikutinya. Pada saat yang sama, kami perlu memberi tahu pengguna kami tentang apa yang mungkin dilakukan di platform kami, karena mereka mungkin tidak menyadarinya. Misalnya, kami dapat memberi tahu pengguna bahwa pencarian dapat mendukung hal-hal seperti kueri bebas (seperti game balapan atau game makanan populer) dan bahwa sistem memahami apa yang dicari orang serta dapat menampilkan hasil yang sesuai. 

Nilai Roblox mana yang paling selaras dengan tim Anda?

Berpikir jangka panjang adalah inti dari tim kami dan itulah salah satu alasan mengapa saya senang bekerja di Roblox.

Salah satu contoh dari tim saya adalah stack teknologi kami, yang terdiri dari sistem pencarian berbasis ML dan NLP—pencarian semantik, autocomplete, dan koreksi ejaan menggunakan model besar yang telah dilatih sebelumnya.

Kami membangun ini dengan mempertimbangkan reuseabilitas di berbagai jenis pencarian yang dilakukan oleh puluhan juta pengguna aktif harian kami. Artinya, kami dapat mengintegrasikan jenis data yang berbeda (misalnya, item avatar alih-alih pengalaman), dan sistem ini seharusnya berfungsi dengan perubahan minimal. 

Kami telah mengintegrasikan pencarian semantik untuk pengalaman, dan kami telah membagikannya ke vertikal lain seperti Marketplace, dan mereka dapat langsung mengadopsinya ke arsitektur yang sudah ada. Ini bukan plug-and-play yang sempurna, tetapi dengan sedikit penyesuaian, kami dapat mengadaptasinya untuk berbagai kasus penggunaan.

Apa yang paling membuat Anda antusias tentang arah yang dituju oleh Roblox dan tim Anda?

Pencarian adalah satu-satunya antarmuka di mana pengguna mengekspresikan niat eksplisit mereka. Artinya, sangat penting bagi kami untuk memahami apa yang mereka inginkan dan memberikan hasil yang paling relevan. Jadi, sangat menarik bagi saya untuk bekerja memahami niat tersebut dan mendidik pengguna tentang apa yang mungkin dilakukan, terkadang bahkan sebelum pengguna menyadarinya. 

Pengguna di negara mana pun dapat mengajukan pertanyaan dan kami dapat memberikan apa yang mereka inginkan dan yang paling relevan bagi mereka. Hal ini membangun kepercayaan yang, pada gilirannya, meningkatkan retensi. Sangat menarik bagi saya untuk menghadapi tantangan meningkatkan pencarian guna membangun kepercayaan tersebut dan membantu Roblox mencapai tujuan kami memiliki satu miliar pengguna.