या साइटवरील सामग्री कृत्रिम बुद्धिमत्ता (AI) किंवा मशीन भाषांतर तंत्रज्ञानाचा वापर करून भाषांतरित केली आहे आणि त्यात त्रुटी असू शकतात.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

मल्टी-टास्क लर्निंगचा वापर करून आवाज विषारीपणाचे शोधन

View Publication

Author

महेश कुमार नंदवाना (Roblox), यिफान हे (Roblox + कार्नेगी मेलन विद्यापीठ), जोसेफ लियू (Roblox), शियाओ यु (Roblox), चार्ल्स शान (Roblox), एलोई डू बॉइस (Roblox), मॉर्गन मॅकग्वायर (Roblox), आणि किरण भट्ट (Roblox)

Venue

IEEE ICASSP '२४

Abstract

सामाजिक संवाद प्रणालींना त्यांच्या समुदायांच्या सुरक्षितता आणि सभ्यतेचे रक्षण करणाऱ्या मॉडरेशनसाठी विषारी व्हॉइस ऑडिओ ओळखणे आवश्यक आहे. आवाजाची विषारीपणा वर्गीकरण ऑडिओ शैली (उदा. आवाज स्तर आणि स्वर) आणि सामग्री (उदा. भाषणातील शब्द स्वतंत्रपणे आणि संदर्भात) या दोन्हींवर अवलंबून असते. आम्ही ऑडिओ-आधारित विषारीपणा ओळखण्यासाठी एक नवीन एंड-टू-एंड मल्टी-टास्क लर्निंग (MTL) पॅराडाइम सादर करतो, जे विद्यमान स्वयंचलित भाषण ओळख (ASR) आणि मजकूर-आधारित प्रणालींशी संबंधित आव्हानांना सामोरे जाते. कठोर पॅरामीटर-शेअरिंग बॅकबोन आणि लवचिक सॉफ्ट-अटेंशन टास्क अॅडॉप्टर्स वापरून, आमचे मॉडेल दोन कार्ये पार पाडते: विशिष्ट प्रकारच्या विषारी वर्तनावर लक्ष केंद्रित करणारे मल्टी-लेबल विषारीपणा वर्गीकरण कार्य, आणि फक्त विषारी कीवर्ड्सचे लिप्यंतरण करण्यावर लक्ष केंद्रित करणारे सहाय्यक ऑडिओ ते कीवर्ड ओळख कार्य, ज्याद्वारे संगणकीय कार्यक्षमता वाढते आणि वर्गीकरण आउटपुटची पूर्तता होते. आम्ही पाहतो की वर्गीकरणकर्त्यामुळे कीवर्ड ओळखीची गुणवत्ता लक्षणीयरीत्या सुधारते. आम्ही प्रशिक्षण संचांच्या स्वयंचलित ऑफलाइन लेबलिंगसाठी एक डेटा पाइपलाइन देखील सादर करतो.