మల్టీ-టాస్క్ లెర్నింగ్ ఉపయోగించి వాయిస్ టాక్సిసిటీ గుర్తింపు
Author
Venue
IEEE ICASSP '24
Abstract
తమ కమ్యూనిటీల భద్రత మరియు పౌరసత్వాన్ని కాపాడే మోడరేషన్కు మద్దతు ఇవ్వడానికి, సోషల్ కమ్యూనికేషన్ సిస్టమ్స్ విషపూరిత వాయిస్ ఆడియోను గుర్తించాలి. వాయిస్ కోసం విషపూరితత వర్గీకరణ అనేది ఆడియో శైలి (వాల్యూమ్ మరియు టోన్ వంటివి) మరియు కంటెంట్ (ప్రసంగంలోని పదాలను వ్యక్తిగతంగా మరియు సందర్భోచితంగా) అనే రెండింటిపై ఆధారపడి ఉంటుంది. ఇప్పటికే ఉన్న ఆటోమేటిక్ స్పీచ్ రికగ్నిషన్ (ASR) మరియు టెక్స్ట్-ఆధారిత వ్యవస్థలతో ముడిపడి ఉన్న సవాళ్లను పరిష్కరిస్తూ, ఆడియో-ఆధారిత టాక్సిసిటీ డిటెక్షన్ కోసం మేము ఒక నూతన ఎండ్-టు-ఎండ్ మల్టీ-టాస్క్ లెర్నింగ్ (MTL) పారాడైమ్ను పరిచయం చేస్తున్నాము. హార్డ్ పారామీటర్-షేరింగ్ బ్యాక్బోన్ మరియు ఫ్లెక్సిబుల్ సాఫ్ట్-అటెన్షన్ టాస్క్ అడాప్టర్లను ఉపయోగించడం ద్వారా, మా మోడల్ రెండు పనులను నిర్వహిస్తుంది: ఒకటి, నిర్దిష్ట రకాల విషపూరిత ప్రవర్తనలను లక్ష్యంగా చేసుకునే మల్టీ-లేబుల్ టాక్సిసిటీ వర్గీకరణ పని; రెండవది, కేవలం విషపూరిత కీవర్డ్లను మాత్రమే ట్రాన్స్క్రిప్ట్ చేయడంపై దృష్టి సారించే సహాయక ఆడియో టు కీవర్డ్ డిటెక్షన్ పని, ఇది కంప్యూటేషనల్ సామర్థ్యాన్ని పెంచుతుంది మరియు వర్గీకరణ అవుట్పుట్కు పరిపూరకంగా ఉంటుంది. క్లాసిఫైయర్ కీవర్డ్ డిటెక్షన్ నాణ్యతను గణనీయంగా మెరుగుపరుస్తుందని మేము గమనించాము. శిక్షణా సెట్ల యొక్క ఆటోమేటెడ్ ఆఫ్లైన్ లేబులింగ్ కోసం మేము ఒక డేటా పైప్లైన్ను కూడా అందిస్తున్నాము.
