Die Inhalte dieser Website wurden mithilfe künstlicher Intelligenz (KI) oder maschineller Übersetzungstechnologie übersetzt und können Fehler enthalten.

Skip to content
Artificial Intelligence

SmoothCache: Eine universelle Technik zur Beschleunigung der Inferenz für Diffusions-Transformer

Author

Joseph Liu (Roblox), Joshua Geddes (Queen's University), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

CVPR eLVM Workshop 2025

Abstract

Diffusion Transformers (DiT) haben sich als leistungsstarke generative Modelle für verschiedene Aufgaben etabliert, darunter Bild-, Video- und Sprachsynthese. Ihr Inferenzprozess ist jedoch aufgrund der wiederholten Auswertung ressourcenintensiver Attention- und Feed-Forward-Module nach wie vor rechenintensiv. Um dieses Problem zu lösen, stellen wir SmoothCache vor, eine modellunabhängige Technik zur Beschleunigung der Inferenz für DiT-Architekturen. SmoothCache nutzt die beobachtete hohe Ähnlichkeit zwischen den Ausgabewerten benachbarter Schichten über aufeinanderfolgende Diffusionsschritte hinweg. Durch die Analyse von Repräsentationsfehlern auf Schichtebene aus einem kleinen Kalibrierungssatz speichert SmoothCache wichtige Merkmale adaptiv im Cache und verwendet sie während der Inferenz wieder. Unsere Experimente zeigen, dass SmoothCache eine Beschleunigung von 8 % bis 71 % erzielt und dabei die Generierungsqualität über verschiedene Modalitäten hinweg beibehält oder sogar verbessert. Wir demonstrieren seine Wirksamkeit auf DiT-XL für die Bildgenerierung, Open-Sora für Text-zu-Video und Stable Audio Open für Text-zu-Audio und heben damit sein Potenzial hervor, Echtzeitanwendungen zu ermöglichen und den Zugang zu leistungsstarken DiT-Modellen zu erweitern.