El contenido de este sitio se ha traducido mediante inteligencia artificial (IA) o tecnología de traducción automática, y puede contener errores.

Skip to content
Safety & Civility
Artificial Intelligence
Speech & Audio

Mejora de la detección de toxicidad en voces multilingües mediante la alineación de voz y texto

View Publication

Author

Joseph Liu (Roblox), Mahesh Kumar Nandwana (Roblox), Janne Pylkkönen (Roblox), Hannes Heikinheimo (Roblox), Morgan McGuire (Roblox)

Venue

Interspeech 2024

Abstract

La clasificación de la toxicidad en el habla depende en gran medida del contenido semántico del discurso. Proponemos un marco novedoso que utiliza el aprendizaje multimodal para integrar la incrustación semántica del texto en un clasificador de toxicidad del habla multietiqueta durante el entrenamiento. Esto nos permite incorporar información textual durante el entrenamiento, sin dejar de requerir únicamente audio durante la inferencia. Evaluamos este clasificador en conjuntos de datos a gran escala con características del mundo real para validar la eficacia de este marco. A través de estudios de ablación, demostramos que las incrustaciones semánticas de texto de uso general son ricas y están alineadas con el habla a efectos de la clasificación de toxicidad. Al realizar experimentos a gran escala en varios idiomas, mostramos mejoras en la clasificación de toxicidad de la voz en cinco idiomas y diferentes categorías de toxicidad.