Meningkatkan Deteksi Toksisitas Suara Multibahasa dengan Penyelarasan Suara-Teks
Author
Venue
Interspeech 2024
Abstract
Klasifikasi toksisitas suara sangat bergantung pada konten semantik dari ucapan. Kami mengusulkan kerangka kerja baru yang memanfaatkan pembelajaran lintas-modal untuk mengintegrasikan embedding semantik teks ke dalam klasifikasi toksisitas ucapan multilabel selama pelatihan. Hal ini memungkinkan kami untuk memasukkan informasi teks selama pelatihan, namun tetap hanya memerlukan audio selama inferensi. Kami mengevaluasi klasifikasi ini pada dataset berskala besar dengan karakteristik dunia nyata untuk memvalidasi keefektifan kerangka kerja ini. Melalui studi ablasi, kami menunjukkan bahwa embedding teks semantik serbaguna kaya dan selaras dengan ucapan untuk tujuan klasifikasi toksisitas. Dengan melakukan eksperimen pada berbagai bahasa secara berskala besar, kami menunjukkan peningkatan dalam klasifikasi toksisitas suara pada lima bahasa dan kategori toksisitas yang berbeda.
