பல்லுறுதிப் பயிற்சியைப் பயன்படுத்தி குரல் நச்சுத்தன்மை கண்டறிதல்
Author
Venue
IEEE ICASSP '24
Abstract
சமூகத் தகவல் தொடர்பு அமைப்புகள், தங்கள் சமூகங்களின் பாதுகாப்பையும் நாகரிகத்தையும் பாதுகாக்கும் நெறிப்படுத்தலை ஆதரிப்பதற்காக, நச்சுத்தனமான குரல் ஆடியோவை அடையாளம் காண வேண்டும். குரலுக்கான நச்சுத்தன்மை வகைப்பாடு, ஒலி அளவு மற்றும் தொனி போன்ற ஆடியோ பாணி மற்றும் பேச்சில் உள்ள வார்த்தைகள் தனித்தனியாகவும் சூழலுக்கேற்பவும் உள்ள உள்ளடக்கம் ஆகிய இரண்டையும் சார்ந்துள்ளது. ஏற்கனவே உள்ள தானியங்கி பேச்சு அங்கீகாரம் (ASR) மற்றும் உரை அடிப்படையிலான அமைப்புகளுடன் தொடர்புடைய சவால்களைக் கையாள்வதற்காக, ஆடியோ அடிப்படையிலான நச்சுத்தன்மை கண்டறிதலுக்கான ஒரு புதுமையான எண்ட்-டு-எண்ட் மல்டி-டாஸ்க் லேர்னிங் (MTL) முன்னுதாரணத்தை நாங்கள் அறிமுகப்படுத்துகிறோம். கடினமான அளவுரு-பகிர்வு முதுகெலும்பு மற்றும் நெகிழ்வான மென்-கவனம் பணி அடாப்டர்களைப் பயன்படுத்துவதன் மூலம், எங்கள் மாதிரி இரண்டு பணிகளைச் செய்கிறது: நச்சுத்தனமான நடத்தைகளின் குறிப்பிட்ட வகைகளைக் குறிவைக்கும் ஒரு பல-லேபிள் நச்சுத்தன்மை வகைப்பாட்டுப் பணியும், நச்சுத்தனமான முக்கிய வார்த்தைகளை மட்டும் எழுதுவதில் கவனம் செலுத்தும் ஒரு துணை ஆடியோ முதல் முக்கிய வார்த்தை கண்டறிதல் பணியும் ஆகும். இது கணக்கீட்டுத் திறனை மேம்படுத்துவதோடு வகைப்பாட்டு வெளியீட்டையும் நிறைவு செய்கிறது. வகைப்படுத்தி, முக்கிய வார்த்தை கண்டறிதலின் தரத்தை கணிசமாக மேம்படுத்துவதை நாங்கள் காண்கிறோம். பயிற்சித் தொகுப்புகளின் தானியங்கி ஆஃப்லைன் லேபிளிங்கிற்கான ஒரு தரவுப் பாதையையும் நாங்கள் பங்களிக்கிறோம்.
