De content op deze site is vertaald met behulp van kunstmatige intelligentie (AI) of machinevertalingstechnologie en kan fouten bevatten.

Skip to content
Safety & Civility
Artificial Intelligence
Speech & Audio

Verbetering van de detectie van giftige uitlatingen in meerdere talen met spraak-tekstafstemming

View Publication

Author

Joseph Liu (Roblox), Mahesh Kumar Nandwana (Roblox), Janne Pylkkönen (Roblox), Hannes Heikinheimo (Roblox), Morgan McGuire (Roblox)

Venue

Interspeech 2024

Abstract

De classificatie van giftigheid in spraak is sterk afhankelijk van de semantische inhoud van de spraak. We stellen een nieuw raamwerk voor dat gebruikmaakt van cross-modaal leren om de semantische inbedding van tekst tijdens de training te integreren in een multilabel-classificator voor giftigheid in spraak. Hierdoor kunnen we tekstuele informatie opnemen tijdens de training, terwijl we tijdens de inferentie alleen audio nodig hebben. We evalueren deze classificator op grootschalige datasets met realistische kenmerken om de effectiviteit van dit raamwerk te valideren. Door middel van ablatiestudies tonen we aan dat algemene semantische tekstinbeddingen rijk zijn en goed aansluiten bij spraak voor toxiciteitsclassificatiedoeleinden. Door grootschalige experimenten in meerdere talen uit te voeren, laten we verbeteringen zien in de classificatie van stemtoxiciteit in vijf talen en verschillende toxiciteitscategorieën.