Die Inhalte dieser Website wurden mithilfe künstlicher Intelligenz (KI) oder maschineller Übersetzungstechnologie übersetzt und können Fehler enthalten.

Skip to content
Natural Language Processing
Speech & Audio

Diffusionssynthesizer für effiziente mehrsprachige Sprach-zu-Sprache-Übersetzung

View Publication

Author

Nameer Hirschkind (Roblox), Xiao Yu (Roblox), Mahesh Kumar Nandwana (Roblox), Joseph Liu (Roblox), Eloi DuBois (Roblox), Dao Le (Roblox), Nicolas Thiebaut (Roblox), Colin Sinclair (Roblox), Kyle Spence (Roblox), Charles Shang (Roblox), Zoe Abrams (Roblox), Morgan McGuire (Roblox)

Venue

Interspeech 2024

Abstract

Wir stellen DiffuseST vor, ein direktes Sprach-zu-Sprache-Übersetzungssystem mit geringer Latenz, das in der Lage ist, die Stimme des Sprechers ohne Vorverarbeitung beizubehalten, während es aus mehreren Ausgangssprachen ins Englische übersetzt. Wir experimentieren mit der Synthesizer-Komponente der Architektur und vergleichen einen Tacotron-basierten Synthesizer mit einem neuartigen diffusionsbasierten Synthesizer. Wir stellen fest, dass der diffusionsbasierte Synthesizer die Audioqualitätsmetriken MOS und PESQ um jeweils 23 % und die Sprecherähnlichkeit um 5 % verbessert, während vergleichbare BLEU-Werte beibehalten werden. Trotz einer mehr als doppelt so hohen Parameteranzahl weist der Diffusionssynthesizer eine geringere Latenz auf, wodurch das gesamte Modell mehr als fünfmal schneller als in Echtzeit läuft.