Wykrywanie toksyczności głosu przy użyciu uczenia wielozadaniowego
Author
Venue
IEEE ICASSP '24
Abstract
Systemy komunikacji społecznościowej muszą identyfikować toksyczne treści głosowe, aby wspierać moderację, która chroni bezpieczeństwo i kulturę osobistą społeczności. Klasyfikacja toksyczności głosu zależy zarówno od stylu audio, takiego jak głośność i ton, jak i od treści, takich jak słowa w wypowiedzi, zarówno pojedynczo, jak i w kontekście. Przedstawiamy nowatorski paradygmat kompleksowego uczenia wielozadaniowego (MTL) do wykrywania toksyczności na podstawie dźwięku, który rozwiązuje problemy związane z istniejącymi systemami automatycznego rozpoznawania mowy (ASR) i systemami opartymi na tekście. Dzięki zastosowaniu sztywnej struktury podstawowej z współdzielonymi parametrami oraz elastycznych adapterów zadań typu soft-attention nasz model wykonuje dwa zadania: wieloklasowe klasyfikowanie toksyczności, które skupia się na konkretnych kategoriach toksycznych zachowań, oraz pomocnicze wykrywanie słów kluczowych w audio, które koncentruje się na transkrypcji wyłącznie toksycznych słów kluczowych, zwiększając w ten sposób wydajność obliczeniową i uzupełniając wyniki klasyfikacji. Zauważamy, że klasyfikator znacznie poprawia jakość wykrywania słów kluczowych. Wnosimy również wkład w postaci potoku danych do automatycznego oznaczania zestawów szkoleniowych w trybie offline.
