Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content
Safety & Civility
Artificial Intelligence
Speech & Audio

Meningkatkan Deteksi Toksisitas Suara Multibahasa dengan Penyelarasan Suara-Teks

View Publication

Author

Joseph Liu (Roblox), Mahesh Kumar Nandwana (Roblox), Janne Pylkkönen (Roblox), Hannes Heikinheimo (Roblox), Morgan McGuire (Roblox)

Venue

Interspeech 2024

Abstract

Klasifikasi toksisitas suara sangat bergantung pada konten semantik dari ucapan. Kami mengusulkan kerangka kerja baru yang memanfaatkan pembelajaran lintas-modal untuk mengintegrasikan embedding semantik teks ke dalam klasifikasi toksisitas ucapan multilabel selama pelatihan. Hal ini memungkinkan kami untuk memasukkan informasi teks selama pelatihan, namun tetap hanya memerlukan audio selama inferensi. Kami mengevaluasi klasifikasi ini pada dataset berskala besar dengan karakteristik dunia nyata untuk memvalidasi keefektifan kerangka kerja ini. Melalui studi ablasi, kami menunjukkan bahwa embedding teks semantik serbaguna kaya dan selaras dengan ucapan untuk tujuan klasifikasi toksisitas. Dengan melakukan eksperimen pada berbagai bahasa secara berskala besar, kami menunjukkan peningkatan dalam klasifikasi toksisitas suara pada lima bahasa dan kategori toksisitas yang berbeda.