Artificial Intelligence

SmoothCache: Eine universelle Technik zur Beschleunigung der Inferenz für Diffusions-Transformer

Share

Author

Joseph Liu (Roblox), Joshua Geddes (Queen's University), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

CVPR eLVM Workshop 2025

Abstract

Diffusion Transformers (DiT) haben sich als leistungsstarke generative Modelle für verschiedene Aufgaben etabliert, darunter Bild-, Video- und Sprachsynthese. Ihr Inferenzprozess ist jedoch aufgrund der wiederholten Auswertung ressourcenintensiver Attention- und Feed-Forward-Module nach wie vor rechenintensiv. Um dieses Problem zu lösen, stellen wir SmoothCache vor, eine modellunabhängige Technik zur Beschleunigung der Inferenz für DiT-Architekturen. SmoothCache nutzt die beobachtete hohe Ähnlichkeit zwischen den Ausgabewerten benachbarter Schichten über aufeinanderfolgende Diffusionsschritte hinweg. Durch die Analyse von Repräsentationsfehlern auf Schichtebene aus einem kleinen Kalibrierungssatz speichert SmoothCache wichtige Merkmale adaptiv im Cache und verwendet sie während der Inferenz wieder. Unsere Experimente zeigen, dass SmoothCache eine Beschleunigung von 8 % bis 71 % erzielt und dabei die Generierungsqualität über verschiedene Modalitäten hinweg beibehält oder sogar verbessert. Wir demonstrieren seine Wirksamkeit auf DiT-XL für die Bildgenerierung, Open-Sora für Text-zu-Video und Stable Audio Open für Text-zu-Audio und heben damit sein Potenzial hervor, Echtzeitanwendungen zu ermöglichen und den Zugang zu leistungsstarken DiT-Modellen zu erweitern.

Gestalten Sie mit uns die Zukunft

Alle Stellen anzeigen

Aktuell

Weitere Ergebnisse

SmoothCache: Eine universelle Technik zur Beschleunigung der Inferenz für Diffusions-Transformer

Author

Venue

Abstract

Gestalten Sie mit uns die Zukunft

SmoothCache: Eine universelle Technik zur Beschleunigung der Inferenz für Diffusions-Transformer

Author

Venue

Abstract

Related Publications

CubePart: Ein 3D-Generator mit offenem Vokabular und steuerbaren Teilen

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Katalog-native LLM: Ein Item-ID-Dialekt mit geringerer Verflechtung für Empfehlungen

Gestalten Sie mit uns die Zukunft