ఈ సైట్‌లోని విషయాలు కృత్రిమ మేధస్సు (AI) లేదా యంత్ర అనువాద సాంకేతికత ఉపయోగించి అనువదించబడ్డాయి మరియు లోపాలు ఉండవచ్చు.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

మల్టీ-టాస్క్ లెర్నింగ్ ఉపయోగించి వాయిస్ టాక్సిసిటీ గుర్తింపు

View Publication

Author

మహేష్ కుమార్ నంద్వానా (రాబ్లాక్స్), యిఫాన్ హే (రాబ్లాక్స్ + కార్నెగీ మెలన్ యూనివర్సిటీ), జోసెఫ్ లియు (రాబ్లాక్స్), షియావో యు (రాబ్లాక్స్), చార్లెస్ షాంగ్ (రాబ్లాక్స్), ఎలోయి డు బోయిస్ (రాబ్లాక్స్), మోర్గాన్ మెక్‌గైర్ (రాబ్లాక్స్), మరియు కిరణ్ భట్ (రాబ్లాక్స్)

Venue

IEEE ICASSP '24

Abstract

తమ కమ్యూనిటీల భద్రత మరియు పౌరసత్వాన్ని కాపాడే మోడరేషన్‌కు మద్దతు ఇవ్వడానికి, సోషల్ కమ్యూనికేషన్ సిస్టమ్స్ విషపూరిత వాయిస్ ఆడియోను గుర్తించాలి. వాయిస్ కోసం విషపూరితత వర్గీకరణ అనేది ఆడియో శైలి (వాల్యూమ్ మరియు టోన్ వంటివి) మరియు కంటెంట్ (ప్రసంగంలోని పదాలను వ్యక్తిగతంగా మరియు సందర్భోచితంగా) అనే రెండింటిపై ఆధారపడి ఉంటుంది. ఇప్పటికే ఉన్న ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ (ASR) మరియు టెక్స్ట్-ఆధారిత వ్యవస్థలతో ముడిపడి ఉన్న సవాళ్లను పరిష్కరిస్తూ, ఆడియో-ఆధారిత టాక్సిసిటీ డిటెక్షన్ కోసం మేము ఒక నూతన ఎండ్-టు-ఎండ్ మల్టీ-టాస్క్ లెర్నింగ్ (MTL) పారాడైమ్‌ను పరిచయం చేస్తున్నాము. హార్డ్ పారామీటర్-షేరింగ్ బ్యాక్‌బోన్ మరియు ఫ్లెక్సిబుల్ సాఫ్ట్-అటెన్షన్ టాస్క్ అడాప్టర్‌లను ఉపయోగించడం ద్వారా, మా మోడల్ రెండు పనులను నిర్వహిస్తుంది: ఒకటి, నిర్దిష్ట రకాల విషపూరిత ప్రవర్తనలను లక్ష్యంగా చేసుకునే మల్టీ-లేబుల్ టాక్సిసిటీ వర్గీకరణ పని; రెండవది, కేవలం విషపూరిత కీవర్డ్‌లను మాత్రమే ట్రాన్స్‌క్రిప్ట్ చేయడంపై దృష్టి సారించే సహాయక ఆడియో టు కీవర్డ్ డిటెక్షన్ పని, ఇది కంప్యూటేషనల్ సామర్థ్యాన్ని పెంచుతుంది మరియు వర్గీకరణ అవుట్‌పుట్‌కు పరిపూరకంగా ఉంటుంది. క్లాసిఫైయర్ కీవర్డ్ డిటెక్షన్ నాణ్యతను గణనీయంగా మెరుగుపరుస్తుందని మేము గమనించాము. శిక్షణా సెట్‌ల యొక్క ఆటోమేటెడ్ ఆఫ్‌లైన్ లేబులింగ్ కోసం మేము ఒక డేటా పైప్‌లైన్‌ను కూడా అందిస్తున్నాము.