பல்லுறுதிப் பயிற்சியைப் பயன்படுத்தி குரல் நச்சுத்தன்மை கண்டறிதல்

Share

Author

மகேஷ் குமார் நந்தவனா (Roblox), யிஃபான் ஹே (Roblox + கார்னகி மெலன் பல்கலைக்கழகம்), ஜோசப் லியு (Roblox), ஷியாவோ யூ (Roblox), சார்லஸ் ஷாங் (Roblox), எலோய் டு பூயிஸ் (Roblox), மோர்கன் மெக்வைர் (Roblox), மற்றும் கிரண் பட் (Roblox)

Venue

IEEE ICASSP '24

Abstract

சமூகத் தகவல் தொடர்பு அமைப்புகள், தங்கள் சமூகங்களின் பாதுகாப்பையும் நாகரிகத்தையும் பாதுகாக்கும் நெறிப்படுத்தலை ஆதரிப்பதற்காக, நச்சுத்தனமான குரல் ஆடியோவை அடையாளம் காண வேண்டும். குரலுக்கான நச்சுத்தன்மை வகைப்பாடு, ஒலி அளவு மற்றும் தொனி போன்ற ஆடியோ பாணி மற்றும் பேச்சில் உள்ள வார்த்தைகள் தனித்தனியாகவும் சூழலுக்கேற்பவும் உள்ள உள்ளடக்கம் ஆகிய இரண்டையும் சார்ந்துள்ளது. ஏற்கனவே உள்ள தானியங்கி பேச்சு அங்கீகாரம் (ASR) மற்றும் உரை அடிப்படையிலான அமைப்புகளுடன் தொடர்புடைய சவால்களைக் கையாள்வதற்காக, ஆடியோ அடிப்படையிலான நச்சுத்தன்மை கண்டறிதலுக்கான ஒரு புதுமையான எண்ட்-டு-எண்ட் மல்டி-டாஸ்க் லேர்னிங் (MTL) முன்னுதாரணத்தை நாங்கள் அறிமுகப்படுத்துகிறோம். கடினமான அளவுரு-பகிர்வு முதுகெலும்பு மற்றும் நெகிழ்வான மென்-கவனம் பணி அடாப்டர்களைப் பயன்படுத்துவதன் மூலம், எங்கள் மாதிரி இரண்டு பணிகளைச் செய்கிறது: நச்சுத்தனமான நடத்தைகளின் குறிப்பிட்ட வகைகளைக் குறிவைக்கும் ஒரு பல-லேபிள் நச்சுத்தன்மை வகைப்பாட்டுப் பணியும், நச்சுத்தனமான முக்கிய வார்த்தைகளை மட்டும் எழுதுவதில் கவனம் செலுத்தும் ஒரு துணை ஆடியோ முதல் முக்கிய வார்த்தை கண்டறிதல் பணியும் ஆகும். இது கணக்கீட்டுத் திறனை மேம்படுத்துவதோடு வகைப்பாட்டு வெளியீட்டையும் நிறைவு செய்கிறது. வகைப்படுத்தி, முக்கிய வார்த்தை கண்டறிதலின் தரத்தை கணிசமாக மேம்படுத்துவதை நாங்கள் காண்கிறோம். பயிற்சித் தொகுப்புகளின் தானியங்கி ஆஃப்லைன் லேபிளிங்கிற்கான ஒரு தரவுப் பாதையையும் நாங்கள் பங்களிக்கிறோம்.

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்

அனைத்து வேலைகளையும் காண்க

சமீபத்தியது

மேலும் முடிவுகள்

பல்லுறுதிப் பயிற்சியைப் பயன்படுத்தி குரல் நச்சுத்தன்மை கண்டறிதல்

Author

Venue

Abstract

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்

பல்லுறுதிப் பயிற்சியைப் பயன்படுத்தி குரல் நச்சுத்தன்மை கண்டறிதல்

Author

Venue

Abstract

Related Publications

கியூப் பார்ட்: ஒரு திறந்த-சொற்களஞ்சிய, பகுதி-கட்டுப்பாடக்கூடிய 3D ஜெனரேட்டர்

ஒரே நேரத்தில் பேச்சு மொழிபெயர்ப்பிற்காக, கால உணர்வு வலையமைப்புகளுடன் சீரமைக்கப்பட்ட என்ட்ராபி தகவல் ஏற்பு

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

எதிர்காலத்தை வடிவமைக்க எங்களுடன் இணையுங்கள்