मल्टी-टास्क लर्निंगचा वापर करून आवाज विषारीपणाचे शोधन

Share

Author

महेश कुमार नंदवाना (Roblox), यिफान हे (Roblox + कार्नेगी मेलन विद्यापीठ), जोसेफ लियू (Roblox), शियाओ यु (Roblox), चार्ल्स शान (Roblox), एलोई डू बॉइस (Roblox), मॉर्गन मॅकग्वायर (Roblox), आणि किरण भट्ट (Roblox)

Venue

IEEE ICASSP '२४

Abstract

सामाजिक संवाद प्रणालींना त्यांच्या समुदायांच्या सुरक्षितता आणि सभ्यतेचे रक्षण करणाऱ्या मॉडरेशनसाठी विषारी व्हॉइस ऑडिओ ओळखणे आवश्यक आहे. आवाजाची विषारीपणा वर्गीकरण ऑडिओ शैली (उदा. आवाज स्तर आणि स्वर) आणि सामग्री (उदा. भाषणातील शब्द स्वतंत्रपणे आणि संदर्भात) या दोन्हींवर अवलंबून असते. आम्ही ऑडिओ-आधारित विषारीपणा ओळखण्यासाठी एक नवीन एंड-टू-एंड मल्टी-टास्क लर्निंग (MTL) पॅराडाइम सादर करतो, जे विद्यमान स्वयंचलित भाषण ओळख (ASR) आणि मजकूर-आधारित प्रणालींशी संबंधित आव्हानांना सामोरे जाते. कठोर पॅरामीटर-शेअरिंग बॅकबोन आणि लवचिक सॉफ्ट-अटेंशन टास्क अॅडॉप्टर्स वापरून, आमचे मॉडेल दोन कार्ये पार पाडते: विशिष्ट प्रकारच्या विषारी वर्तनावर लक्ष केंद्रित करणारे मल्टी-लेबल विषारीपणा वर्गीकरण कार्य, आणि फक्त विषारी कीवर्ड्सचे लिप्यंतरण करण्यावर लक्ष केंद्रित करणारे सहाय्यक ऑडिओ ते कीवर्ड ओळख कार्य, ज्याद्वारे संगणकीय कार्यक्षमता वाढते आणि वर्गीकरण आउटपुटची पूर्तता होते. आम्ही पाहतो की वर्गीकरणकर्त्यामुळे कीवर्ड ओळखीची गुणवत्ता लक्षणीयरीत्या सुधारते. आम्ही प्रशिक्षण संचांच्या स्वयंचलित ऑफलाइन लेबलिंगसाठी एक डेटा पाइपलाइन देखील सादर करतो.

भविष्य घडवण्यात आमच्यासोबत सहभागी व्हा

सर्व नोकऱ्या पहा

नवीनतम

अधिक निकाल

मल्टी-टास्क लर्निंगचा वापर करून आवाज विषारीपणाचे शोधन

Author

Venue

Abstract

भविष्य घडवण्यात आमच्यासोबत सहभागी व्हा

मल्टी-टास्क लर्निंगचा वापर करून आवाज विषारीपणाचे शोधन

Author

Venue

Abstract

Related Publications

क्यूबपार्ट: एक खुल्या शब्दसंग्रहाचा, भागांनुसार नियंत्रित करता येणारा 3D जनरेटर

समकालीन भाषण अनुवादासाठी कालातीत-जागरूक नेटवर्कसह नियमित एन्ट्रॉपी माहिती अनुकूलन

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

भविष्य घडवण्यात आमच्यासोबत सहभागी व्हा