Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Deteksi Toksisitas Suara Menggunakan Pembelajaran Multitugas

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Universitas Carnegie Mellon), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox), dan Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Sistem komunikasi sosial harus mengidentifikasi audio suara yang beracun untuk mendukung moderasi yang melindungi keamanan dan kesopanan komunitas mereka. Klasifikasi toksisitas untuk suara bergantung pada gaya audio, seperti volume dan nada, serta konten, seperti kata-kata dalam ucapan secara individual dan dalam konteks. Kami memperkenalkan paradigma pembelajaran multi-tugas (MTL) end-to-end yang baru untuk deteksi toksisitas berbasis audio, yang mengatasi tantangan yang terkait dengan sistem pengenalan ucapan otomatis (ASR) dan sistem berbasis teks yang ada. Dengan menggunakan backbone berbagi parameter yang kaku dan adaptor tugas soft-attention yang fleksibel, model kami melakukan dua tugas: tugas klasifikasi toksisitas multi-label yang menargetkan kategori spesifik perilaku toksik, dan tugas pendeteksian Audio ke Kata Kunci tambahan yang berfokus pada transkripsi hanya kata kunci toksik, sehingga meningkatkan efisiensi komputasi dan melengkapi output klasifikasi. Kami mengamati bahwa klasifikasi tersebut secara signifikan meningkatkan kualitas pendeteksian kata kunci. Kami juga menyumbangkan pipa data untuk pelabelan offline otomatis pada set pelatihan.