Treści na tej stronie zostały przetłumaczone przy użyciu sztucznej inteligencji (AI) lub technologii tłumaczenia maszynowego i mogą zawierać błędy.

Skip to content
Safety & Civility
Speech & Audio
Artificial Intelligence

Wykrywanie toksyczności głosu przy użyciu uczenia wielozadaniowego

View Publication

Author

Mahesh Kumar Nandwana (Roblox), Yifan He (Roblox + Uniwersytet Carnegie Mellon), Joseph Liu (Roblox), Xiao Yu (Roblox), Charles Shang (Roblox), Eloi Du Bois (Roblox), Morgan McGuire (Roblox) oraz Kiran Bhat (Roblox)

Venue

IEEE ICASSP '24

Abstract

Systemy komunikacji społecznościowej muszą identyfikować toksyczne treści głosowe, aby wspierać moderację, która chroni bezpieczeństwo i kulturę osobistą społeczności. Klasyfikacja toksyczności głosu zależy zarówno od stylu audio, takiego jak głośność i ton, jak i od treści, takich jak słowa w wypowiedzi, zarówno pojedynczo, jak i w kontekście. Przedstawiamy nowatorski paradygmat kompleksowego uczenia wielozadaniowego (MTL) do wykrywania toksyczności na podstawie dźwięku, który rozwiązuje problemy związane z istniejącymi systemami automatycznego rozpoznawania mowy (ASR) i systemami opartymi na tekście. Dzięki zastosowaniu sztywnej struktury podstawowej z współdzielonymi parametrami oraz elastycznych adapterów zadań typu soft-attention nasz model wykonuje dwa zadania: wieloklasowe klasyfikowanie toksyczności, które skupia się na konkretnych kategoriach toksycznych zachowań, oraz pomocnicze wykrywanie słów kluczowych w audio, które koncentruje się na transkrypcji wyłącznie toksycznych słów kluczowych, zwiększając w ten sposób wydajność obliczeniową i uzupełniając wyniki klasyfikacji. Zauważamy, że klasyfikator znacznie poprawia jakość wykrywania słów kluczowych. Wnosimy również wkład w postaci potoku danych do automatycznego oznaczania zestawów szkoleniowych w trybie offline.