El contenido de este sitio se ha traducido mediante inteligencia artificial (IA) o tecnología de traducción automática, y puede contener errores.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Detección de toxicidad en la voz mediante aprendizaje multitarea

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Universidad Carnegie Mellon), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) y Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Los sistemas de comunicación social deben identificar el audio de voz tóxico para facilitar la moderación que proteja la seguridad y la civilidad de sus comunidades. La clasificación de la toxicidad de la voz depende tanto del estilo del audio, como el volumen y el tono, como del contenido, como las palabras del discurso, tanto individualmente como en su contexto. Presentamos un novedoso paradigma de aprendizaje multitarea (MTL) de extremo a extremo para la detección de toxicidad basada en audio, que aborda los retos asociados a los sistemas existentes de reconocimiento automático del habla (ASR) y basados en texto. Mediante el empleo de una estructura central de intercambio de parámetros rígida y adaptadores de tareas de atención flexible, nuestro modelo realiza dos tareas: una tarea de clasificación de toxicidad multietiqueta que se centra en categorías específicas de comportamiento tóxico, y una tarea auxiliar de detección de «audio a palabra clave» que se centra en transcribir únicamente palabras clave tóxicas, mejorando así la eficiencia computacional y complementando el resultado de la clasificación. Observamos que el clasificador mejora significativamente la calidad de la detección de palabras clave. También aportamos un proceso de datos para el etiquetado automatizado offline de conjuntos de entrenamiento.