Treści na tej stronie zostały przetłumaczone przy użyciu sztucznej inteligencji (AI) lub technologii tłumaczenia maszynowego i mogą zawierać błędy.

Skip to content
Artificial Intelligence

SmoothCache: uniwersalna technika przyspieszania wnioskowania dla transformatorów dyfuzyjnych

Author

Joseph Liu (Roblox), Joshua Geddes (Queen's University), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

Warsztaty CVPR eLVM 2025

Abstract

Transformatory dyfuzyjne (DiT) stały się potężnymi modelami generatywnymi do różnych zadań, w tym syntezy obrazu, wideo i mowy. Jednak ich proces wnioskowania pozostaje obciążający obliczeniowo ze względu na powtarzającą się ocenę modułów uwagi i modułów feed-forward, które wymagają dużych zasobów. Aby temu zaradzić, wprowadzamy SmoothCache, technikę przyspieszania wnioskowania niezależną od modelu dla architektur DiT. SmoothCache wykorzystuje zaobserwowane wysokie podobieństwo między wynikami warstw w sąsiednich krokach czasowych dyfuzji. Analizując błędy reprezentacji na poziomie warstw z małego zestawu kalibracyjnego, SmoothCache adaptacyjnie buforuje i ponownie wykorzystuje kluczowe cechy podczas wnioskowania. Nasze eksperymenty pokazują, że SmoothCache osiąga przyspieszenie od 8% do 71%, zachowując lub nawet poprawiając jakość generowania w różnych modalnościach. Prezentujemy jego skuteczność w DiT-XL do generowania obrazów, Open-Sora do tekstu na wideo oraz Stable Audio Open do tekstu na audio, podkreślając jego potencjał w umożliwianiu aplikacji działających w czasie rzeczywistym oraz poszerzaniu dostępności potężnych modeli DiT.