मल्टी-टास्क लर्निंगचा वापर करून आवाज विषारीपणाचे शोधन
Author
Venue
IEEE ICASSP '२४
Abstract
सामाजिक संवाद प्रणालींना त्यांच्या समुदायांच्या सुरक्षितता आणि सभ्यतेचे रक्षण करणाऱ्या मॉडरेशनसाठी विषारी व्हॉइस ऑडिओ ओळखणे आवश्यक आहे. आवाजाची विषारीपणा वर्गीकरण ऑडिओ शैली (उदा. आवाज स्तर आणि स्वर) आणि सामग्री (उदा. भाषणातील शब्द स्वतंत्रपणे आणि संदर्भात) या दोन्हींवर अवलंबून असते. आम्ही ऑडिओ-आधारित विषारीपणा ओळखण्यासाठी एक नवीन एंड-टू-एंड मल्टी-टास्क लर्निंग (MTL) पॅराडाइम सादर करतो, जे विद्यमान स्वयंचलित भाषण ओळख (ASR) आणि मजकूर-आधारित प्रणालींशी संबंधित आव्हानांना सामोरे जाते. कठोर पॅरामीटर-शेअरिंग बॅकबोन आणि लवचिक सॉफ्ट-अटेंशन टास्क अॅडॉप्टर्स वापरून, आमचे मॉडेल दोन कार्ये पार पाडते: विशिष्ट प्रकारच्या विषारी वर्तनावर लक्ष केंद्रित करणारे मल्टी-लेबल विषारीपणा वर्गीकरण कार्य, आणि फक्त विषारी कीवर्ड्सचे लिप्यंतरण करण्यावर लक्ष केंद्रित करणारे सहाय्यक ऑडिओ ते कीवर्ड ओळख कार्य, ज्याद्वारे संगणकीय कार्यक्षमता वाढते आणि वर्गीकरण आउटपुटची पूर्तता होते. आम्ही पाहतो की वर्गीकरणकर्त्यामुळे कीवर्ड ओळखीची गुणवत्ता लक्षणीयरीत्या सुधारते. आम्ही प्रशिक्षण संचांच्या स्वयंचलित ऑफलाइन लेबलिंगसाठी एक डेटा पाइपलाइन देखील सादर करतो.
