இந்த தளத்தின் உள்ளடக்கம் செயற்கை நுண்ணறிவு (AI) அல்லது இயந்திர மொழிபெயர்ப்பு தொழில்நுட்பம் மூலம் மொழிபெயர்க்கப்பட்டுள்ளது; பிழைகள் இருக்கலாம்.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

பல்லுறுதிப் பயிற்சியைப் பயன்படுத்தி குரல் நச்சுத்தன்மை கண்டறிதல்

View Publication

Author

மகேஷ் குமார் நந்தவனா (Roblox), யிஃபான் ஹே (Roblox + கார்னகி மெலன் பல்கலைக்கழகம்), ஜோசப் லியு (Roblox), ஷியாவோ யூ (Roblox), சார்லஸ் ஷாங் (Roblox), எலோய் டு பூயிஸ் (Roblox), மோர்கன் மெக்வைர் (Roblox), மற்றும் கிரண் பட் (Roblox)

Venue

IEEE ICASSP '24

Abstract

சமூகத் தகவல் தொடர்பு அமைப்புகள், தங்கள் சமூகங்களின் பாதுகாப்பையும் நாகரிகத்தையும் பாதுகாக்கும் நெறிப்படுத்தலை ஆதரிப்பதற்காக, நச்சுத்தனமான குரல் ஆடியோவை அடையாளம் காண வேண்டும். குரலுக்கான நச்சுத்தன்மை வகைப்பாடு, ஒலி அளவு மற்றும் தொனி போன்ற ஆடியோ பாணி மற்றும் பேச்சில் உள்ள வார்த்தைகள் தனித்தனியாகவும் சூழலுக்கேற்பவும் உள்ள உள்ளடக்கம் ஆகிய இரண்டையும் சார்ந்துள்ளது. ஏற்கனவே உள்ள தானியங்கி பேச்சு அங்கீகாரம் (ASR) மற்றும் உரை அடிப்படையிலான அமைப்புகளுடன் தொடர்புடைய சவால்களைக் கையாள்வதற்காக, ஆடியோ அடிப்படையிலான நச்சுத்தன்மை கண்டறிதலுக்கான ஒரு புதுமையான எண்ட்-டு-எண்ட் மல்டி-டாஸ்க் லேர்னிங் (MTL) முன்னுதாரணத்தை நாங்கள் அறிமுகப்படுத்துகிறோம். கடினமான அளவுரு-பகிர்வு முதுகெலும்பு மற்றும் நெகிழ்வான மென்-கவனம் பணி அடாப்டர்களைப் பயன்படுத்துவதன் மூலம், எங்கள் மாதிரி இரண்டு பணிகளைச் செய்கிறது: நச்சுத்தனமான நடத்தைகளின் குறிப்பிட்ட வகைகளைக் குறிவைக்கும் ஒரு பல-லேபிள் நச்சுத்தன்மை வகைப்பாட்டுப் பணியும், நச்சுத்தனமான முக்கிய வார்த்தைகளை மட்டும் எழுதுவதில் கவனம் செலுத்தும் ஒரு துணை ஆடியோ முதல் முக்கிய வார்த்தை கண்டறிதல் பணியும் ஆகும். இது கணக்கீட்டுத் திறனை மேம்படுத்துவதோடு வகைப்பாட்டு வெளியீட்டையும் நிறைவு செய்கிறது. வகைப்படுத்தி, முக்கிய வார்த்தை கண்டறிதலின் தரத்தை கணிசமாக மேம்படுத்துவதை நாங்கள் காண்கிறோம். பயிற்சித் தொகுப்புகளின் தானியங்கி ஆஃப்லைன் லேபிளிங்கிற்கான ஒரு தரவுப் பாதையையும் நாங்கள் பங்களிக்கிறோம்.