การตรวจจับความเป็นพิษของเสียงพูดโดยใช้การเรียนรู้หลายภารกิจ
Author
Venue
IEEE ICASSP '24
Abstract
ระบบการสื่อสารทางสังคมต้องสามารถระบุเสียงที่เป็นพิษได้เพื่อสนับสนุนการควบคุมเนื้อหาที่คุ้มครองความปลอดภัยและความสุภาพของชุมชนของตน การจำแนกความเป็นพิษของเสียงขึ้นอยู่ทั้งสไตล์ของเสียง เช่น ความดังและน้ำเสียง และเนื้อหา เช่น คำพูดในคำพูดแต่ละคำและในบริบท เราแนะนำแนวคิดใหม่ของการเรียนรู้หลายภารกิจแบบครบวงจร (MTL) สำหรับการตรวจจับความเป็นพิษจากเสียง โดยมุ่งเน้นการแก้ไขปัญหาที่พบในระบบตรวจจับอัตโนมัติด้วยเสียง (ASR) และระบบที่ใช้ข้อความในปัจจุบัน โดยการใช้โครงสร้างหลักที่แบ่งปันพารามิเตอร์อย่างเข้มงวดและตัวปรับงานแบบซอฟต์-แอทเทนชันที่ยืดหยุ่น โมเดลของเราสามารถทำงานสองอย่างได้: งานจำแนกความเป็นพิษแบบหลายป้ายกำกับที่มุ่งเป้าไปที่หมวดหมู่พฤติกรรมที่เป็นพิษเฉพาะ และงานเสริมในการตรวจจับเสียงเป็นคำสำคัญที่เน้นการถอดเสียงเฉพาะคำสำคัญที่เป็นพิษเท่านั้น ซึ่งช่วยเพิ่มประสิทธิภาพการคำนวณและเสริมผลลัพธ์การจำแนก เราพบว่าตัวจำแนกสามารถปรับปรุงคุณภาพของการตรวจจับคำสำคัญได้อย่างมีนัยสำคัญ นอกจากนี้ เรายังได้นำเสนอระบบจัดการข้อมูลสำหรับการติดป้ายกำกับชุดข้อมูลฝึกฝนแบบออฟไลน์โดยอัตโนมัติ
