Verbetering van de detectie van giftige uitlatingen in meerdere talen met spraak-tekstafstemming
Author
Venue
Interspeech 2024
Abstract
De classificatie van giftigheid in spraak is sterk afhankelijk van de semantische inhoud van de spraak. We stellen een nieuw raamwerk voor dat gebruikmaakt van cross-modaal leren om de semantische inbedding van tekst tijdens de training te integreren in een multilabel-classificator voor giftigheid in spraak. Hierdoor kunnen we tekstuele informatie opnemen tijdens de training, terwijl we tijdens de inferentie alleen audio nodig hebben. We evalueren deze classificator op grootschalige datasets met realistische kenmerken om de effectiviteit van dit raamwerk te valideren. Door middel van ablatiestudies tonen we aan dat algemene semantische tekstinbeddingen rijk zijn en goed aansluiten bij spraak voor toxiciteitsclassificatiedoeleinden. Door grootschalige experimenten in meerdere talen uit te voeren, laten we verbeteringen zien in de classificatie van stemtoxiciteit in vijf talen en verschillende toxiciteitscategorieën.
