Diffusionssynthesizer für effiziente mehrsprachige Sprach-zu-Sprache-Übersetzung
Author
Venue
Interspeech 2024
Abstract
Wir stellen DiffuseST vor, ein direktes Sprach-zu-Sprache-Übersetzungssystem mit geringer Latenz, das in der Lage ist, die Stimme des Sprechers ohne Vorverarbeitung beizubehalten, während es aus mehreren Ausgangssprachen ins Englische übersetzt. Wir experimentieren mit der Synthesizer-Komponente der Architektur und vergleichen einen Tacotron-basierten Synthesizer mit einem neuartigen diffusionsbasierten Synthesizer. Wir stellen fest, dass der diffusionsbasierte Synthesizer die Audioqualitätsmetriken MOS und PESQ um jeweils 23 % und die Sprecherähnlichkeit um 5 % verbessert, während vergleichbare BLEU-Werte beibehalten werden. Trotz einer mehr als doppelt so hohen Parameteranzahl weist der Diffusionssynthesizer eine geringere Latenz auf, wodurch das gesamte Modell mehr als fünfmal schneller als in Echtzeit läuft.
