Mengatasi Hambatan Bahasa dengan Model Terjemahan Multibahasa

Bayangkan jika Anda mengetahui bahwa teman Roblox baru Anda, seseorang yang telah Anda ajak mengobrol dan bercanda dalam pengalaman baru, sebenarnya berada di Korea — dan telah mengetik dalam bahasa Korea sepanjang waktu, sementara Anda mengetik dalam bahasa Inggris, tanpa salah satu dari Anda menyadarinya. Berkat terjemahan obrolan AI real-time baru kami, kami telah mewujudkan sesuatu di Roblox yang bahkan tidak mungkin terjadi di dunia nyata — memungkinkan orang-orang yang berbicara dalam bahasa berbeda untuk berkomunikasi dengan lancar satu sama lain dalam pengalaman 3D imersif kami. Hal ini dimungkinkan berkat model multibahasa khusus kami, yang kini memungkinkan terjemahan langsung antara kombinasi apa pun dari 16 bahasa yang kami dukung saat ini (15 bahasa ini, serta bahasa Inggris).
Dalam pengalaman apa pun yang telah mengaktifkan layanan obrolan teks dalam pengalaman kami, orang-orang dari berbagai negara kini dapat dipahami oleh orang-orang yang tidak berbicara bahasa mereka. Jendela obrolan akan secara otomatis menampilkan terjemahan dari bahasa Korea ke bahasa Inggris, atau dari bahasa Turki ke bahasa Jerman, dan sebaliknya, sehingga setiap orang melihat percakapan dalam bahasa mereka sendiri. Terjemahan ini ditampilkan secara real-time, dengan latensi sekitar 100 milidetik, sehingga proses terjemahan yang terjadi di balik layar hampir tidak terlihat. Penggunaan AI untuk mengotomatisasi terjemahan real-time dalam obrolan teks menghilangkan hambatan bahasa dan menyatukan lebih banyak orang, di mana pun mereka tinggal di dunia.

Membangun Model Terjemahan Terpadu
Terjemahan AI bukanlah hal baru, sebagian besar konten dalam pengalaman kami sudah diterjemahkan secara otomatis. Kami ingin melampaui sekadar menerjemahkan konten statis dalam pengalaman. Kami ingin menerjemahkan interaksi secara otomatis — dan kami ingin melakukannya untuk semua 16 bahasa yang kami dukung di platform ini. Ini adalah tujuan yang ambisius karena dua alasan: Pertama, kami tidak hanya menerjemahkan dari satu bahasa utama (misalnya, Inggris) ke bahasa lain, tetapi kami ingin sistem yang mampu menerjemahkan antara kombinasi apa pun dari 16 bahasa yang kami dukung. Kedua, sistem tersebut harus cepat. Cukup cepat untuk mendukung percakapan obrolan langsung, yang bagi kami berarti mengurangi latensi hingga sekitar 100 milidetik.
Roblox menjadi rumah bagi lebih dari 70 juta pengguna aktif harian di seluruh dunia dan terus berkembang. Orang-orang berkomunikasi dan berkreasi di platform kami — masing-masing dalam bahasa ibu mereka — 24 jam sehari. Menerjemahkan secara manual setiap percakapan yang terjadi di lebih dari 15 juta pengalaman aktif, semuanya secara real-time, jelas tidak mungkin dilakukan. Menerapkan terjemahan langsung ini ke jutaan orang, yang semuanya melakukan percakapan berbeda di pengalaman yang berbeda secara bersamaan, membutuhkan LLM dengan kecepatan dan akurasi yang luar biasa. Kami membutuhkan model yang sadar konteks yang mengenali bahasa khas Roblox, termasuk slang dan singkatan (seperti obby, afk, atau lol). Di luar semua itu, model kami harus mendukung kombinasi apa pun dari 16 bahasa yang saat ini didukung oleh Roblox.
Untuk mencapai hal ini, kami bisa saja membangun model unik untuk setiap pasangan bahasa (misalnya, Jepang dan Spanyol), tetapi hal itu akan membutuhkan 16x16, atau 256 model yang berbeda. Sebagai gantinya, kami membangun LLM terjemahan berbasis transformer yang terpadu untuk menangani semua pasangan bahasa dalam satu model. Ini seperti memiliki beberapa aplikasi terjemahan, masing-masing berspesialisasi dalam sekelompok bahasa yang serupa, semuanya tersedia dalam satu antarmuka. Dengan kalimat sumber dan bahasa target yang diberikan, kami dapat mengaktifkan “ahli” yang relevan untuk menghasilkan terjemahan.
Arsitektur ini memungkinkan pemanfaatan sumber daya yang lebih baik, karena setiap ahli memiliki spesialisasi yang berbeda, yang menghasilkan pelatihan dan inferensi yang lebih efisien — tanpa mengorbankan kualitas terjemahan.

Arsitektur ini membuat pelatihan dan pemeliharaan model kami jauh lebih efisien karena beberapa alasan. Pertama, model kami mampu memanfaatkan kesamaan linguistik antar bahasa. Ketika semua bahasa dilatih bersama-sama, bahasa-bahasa yang serupa, seperti Spanyol dan Portugis, saling mendapat manfaat dari masukan satu sama lain selama pelatihan, yang membantu meningkatkan kualitas terjemahan untuk kedua bahasa tersebut. Kami juga dapat dengan jauh lebih mudah menguji dan mengintegrasikan penelitian baru serta kemajuan dalam LLMs ke dalam sistem kami saat dirilis, untuk memanfaatkan teknik terbaru dan terbaik yang tersedia. Kami melihat manfaat lain dari model terpadu ini dalam kasus di mana bahasa sumber tidak ditentukan atau ditentukan secara salah, di mana model cukup akurat untuk mendeteksi bahasa sumber yang benar dan menerjemahkannya ke bahasa target. Faktanya, bahkan jika masukan mengandung campuran bahasa, sistem tetap dapat mendeteksi dan menerjemahkannya ke bahasa target. Dalam kasus ini, akurasi mungkin tidak setinggi biasanya, tetapi pesan akhir tetap dapat dipahami dengan wajar.
Untuk melatih model terpadu ini, kami memulai dengan prapelatihan menggunakan data sumber terbuka yang tersedia, serta data terjemahan internal kami, hasil terjemahan obrolan yang dilabeli manusia, dan kalimat serta frasa obrolan umum. Kami juga membangun metrik evaluasi terjemahan dan model sendiri untuk mengukur kualitas terjemahan. Sebagian besar metrik kualitas terjemahan yang tersedia di pasaran membandingkan hasil terjemahan AI dengan terjemahan acuan atau referensi, dan berfokus terutama pada keterpahaman terjemahan. Kami ingin menilai kualitas terjemahan — tanpa terjemahan kebenaran dasar.
Kami meninjau hal ini dari berbagai aspek, termasuk akurasi (apakah ada penambahan, penghilangan, atau kesalahan terjemahan), kelancaran (tanda baca, ejaan, dan tata bahasa), serta referensi yang salah (ketidaksesuaian dengan teks lainnya). Kami mengklasifikasikan kesalahan ini ke dalam tingkat keparahan: Apakah ini kesalahan kritis, mayor, atau minor? Untuk mengevaluasi kualitas, kami membangun model ML dan melatihnya menggunakan jenis kesalahan dan skor yang dilabeli oleh manusia. Kami kemudian menyempurnakan model bahasa multibahasa untuk memprediksi kesalahan dan jenis pada tingkat kata serta menghitung skor menggunakan kriteria multidimensi kami. Hal ini memberi kami pemahaman komprehensif tentang kualitas dan jenis kesalahan yang terjadi. Dengan cara ini, kami dapat memperkirakan kualitas terjemahan dan mendeteksi kesalahan dengan menggunakan teks sumber dan terjemahan mesin, tanpa memerlukan terjemahan acuan. Dengan menggunakan hasil pengukuran kualitas ini, kami dapat lebih meningkatkan kualitas model terjemahan kami.

Pasangan bahasa yang kurang umum (misalnya, Prancis ke Thailand), menantang karena kurangnya data berkualitas tinggi. Untuk mengatasi kesenjangan ini, kami menerapkan terjemahan balik, di mana konten diterjemahkan kembali ke bahasa aslinya, lalu dibandingkan dengan teks sumber untuk memastikan akurasi. Selama proses pelatihan, kami menggunakan terjemahan balik berulang, di mana kami menggunakan kombinasi strategis antara data terjemahan balik ini dan data yang diawasi (berlabel) untuk memperluas jumlah data terjemahan yang dapat dipelajari oleh model.

Untuk membantu model memahami bahasa gaul modern, kami meminta evaluator manusia untuk menerjemahkan istilah-istilah populer dan yang sedang tren untuk setiap bahasa, dan memasukkan terjemahan tersebut ke dalam data pelatihan kami. Kami akan terus mengulangi proses ini secara rutin agar sistem tetap terupdate dengan bahasa gaul terbaru.
Model terjemahan obrolan yang dihasilkan memiliki sekitar 1 miliar parameter. Menjalankan terjemahan melalui model sebesar ini sangat boros sumber daya untuk disajikan secara massal dan akan memakan waktu terlalu lama untuk percakapan real-time, di mana latensi rendah sangat penting untuk mendukung lebih dari 5.000 obrolan per detik. Oleh karena itu, kami menggunakan model terjemahan besar ini dalam pendekatan guru-murid untuk membangun model yang lebih kecil dan ringan. Kami menerapkan distilasi, kuantisasi, kompilasi model, dan optimisasi penyajian lainnya untuk mengurangi ukuran model menjadi kurang dari 650 juta parameter serta meningkatkan efisiensi penyajian. Selain itu, kami memodifikasi API di balik obrolan teks dalam pengalaman pengguna untuk mengirimkan baik pesan asli maupun terjemahannya ke perangkat pengguna. Hal ini memungkinkan penerima melihat pesan dalam bahasa asli mereka atau dengan cepat beralih untuk melihat pesan asli pengirim yang belum diterjemahkan.
Setelah LLM akhir siap, kami mengimplementasikan back end untuk terhubung dengan server model. Di back end inilah kami menerapkan logika terjemahan obrolan tambahan dan mengintegrasikan sistem dengan sistem kepercayaan dan keamanan kami yang biasa. Hal ini memastikan teks terjemahan mendapatkan tingkat pengawasan yang sama dengan teks lainnya, guna mendeteksi dan memblokir kata atau frasa yang melanggar kebijakan kami. Keamanan dan kesopanan menjadi prioritas utama dalam segala hal yang kami lakukan di Roblox, sehingga ini merupakan bagian yang sangat penting dari keseluruhan proses.
Terus Meningkatkan Akurasi
Dalam pengujian, kami melihat bahwa sistem terjemahan baru ini meningkatkan keterlibatan dan kualitas sesi bagi pengguna di platform kami. Berdasarkan metrik internal kami, model kami outperform API terjemahan komersial pada konten Roblox, menunjukkan bahwa kami telah berhasil mengoptimalkan sistem ini sesuai dengan cara orang berkomunikasi di Roblox. Kami sangat antusias melihat bagaimana hal ini meningkatkan pengalaman pengguna di platform, memungkinkan mereka untuk bermain game, berbelanja, berkolaborasi, atau sekadar bersosialisasi dengan teman yang berbahasa berbeda.
Kemampuan pengguna untuk melakukan percakapan yang lancar dan alami dalam bahasa ibu mereka membawa kami lebih dekat ke tujuan kami untuk menghubungkan satu miliar orang dengan optimisme dan kesopanan.
Untuk lebih meningkatkan akurasi terjemahan kami dan memberikan data pelatihan yang lebih baik bagi model kami, kami berencana meluncurkan alat yang memungkinkan pengguna di platform ini memberikan umpan balik tentang terjemahan mereka dan membantu sistem berkembang lebih cepat. Hal ini akan memungkinkan seseorang memberi tahu kami ketika mereka melihat sesuatu yang salah terjemahan dan bahkan menyarankan terjemahan yang lebih baik yang dapat kami tambahkan ke dalam data pelatihan untuk lebih meningkatkan model.
Terjemahan ini sudah tersedia hari ini untuk semua 16 bahasa yang kami dukung — tetapi kami masih jauh dari selesai. Kami berencana untuk terus memperbarui model kami dengan contoh terjemahan terbaru dari pengalaman kami, serta frasa obrolan populer dan frasa slang terbaru dalam setiap bahasa yang kami dukung. Selain itu, arsitektur ini akan memungkinkan pelatihan model pada bahasa baru dengan upaya relatif rendah, seiring tersedianya data pelatihan yang cukup untuk bahasa-bahasa tersebut. Di masa depan, kami sedang menjajaki cara untuk menerjemahkan segala sesuatu secara otomatis dalam berbagai dimensi: teks pada gambar, tekstur, model 3D, dan sebagainya.
Dan kami sudah menjelajahi batas-batas baru yang menarik, termasuk terjemahan obrolan suara otomatis. Bayangkan seorang penutur bahasa Prancis di Roblox dapat berobrol suara dengan seseorang yang hanya berbicara bahasa Rusia. Keduanya dapat berbicara dan saling memahami, hingga ke intonasi, ritme, dan emosi suara mereka, dalam bahasa masing-masing, dan dengan latensi rendah. Meskipun ini terdengar seperti fiksi ilmiah hari ini, dan akan membutuhkan waktu untuk mencapainya, kami akan terus mendorong kemajuan dalam terjemahan. Di masa depan yang tidak terlalu jauh, Roblox akan menjadi tempat di mana orang-orang dari seluruh dunia dapat berkomunikasi dengan lancar dan tanpa hambatan, tidak hanya melalui obrolan teks, tetapi dalam segala bentuk komunikasi yang mungkin!


