O conteúdo deste site foi traduzido usando inteligência artificial (IA) ou tecnologia de tradução automática e pode conter erros.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Detecção de toxicidade na voz usando aprendizado multitarefa

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Universidade Carnegie Mellon), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) e Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Os sistemas de comunicação social devem identificar áudios de voz tóxicos para apoiar a moderação que protege a segurança e a civilidade de suas comunidades. A classificação de toxicidade para voz depende tanto do estilo do áudio, como volume e tom, quanto do conteúdo, como as palavras na fala individualmente e no contexto. Apresentamos um novo paradigma de aprendizagem multitarefa (MTL) de ponta a ponta para detecção de toxicidade baseada em áudio, abordando os desafios associados aos sistemas existentes de reconhecimento automático de fala (ASR) e baseados em texto. Ao empregar uma estrutura central de compartilhamento rígido de parâmetros e adaptadores de tarefa flexíveis com atenção suave, nosso modelo executa duas tarefas: uma tarefa de classificação de toxicidade com múltiplos rótulos que visa categorias específicas de comportamento tóxico e uma tarefa auxiliar de detecção de áudio para palavras-chave que se concentra em transcrever apenas palavras-chave tóxicas, aumentando assim a eficiência computacional e complementando a saída da classificação. Observamos que o classificador melhora significativamente a qualidade da detecção de palavras-chave. Também contribuímos com um pipeline de dados para a rotulagem automatizada offline de conjuntos de treinamento.