SmoothCache: uniwersalna technika przyspieszania wnioskowania dla transformatorów dyfuzyjnych
Author
Venue
Warsztaty CVPR eLVM 2025
Abstract
Transformatory dyfuzyjne (DiT) stały się potężnymi modelami generatywnymi do różnych zadań, w tym syntezy obrazu, wideo i mowy. Jednak ich proces wnioskowania pozostaje obciążający obliczeniowo ze względu na powtarzającą się ocenę modułów uwagi i modułów feed-forward, które wymagają dużych zasobów. Aby temu zaradzić, wprowadzamy SmoothCache, technikę przyspieszania wnioskowania niezależną od modelu dla architektur DiT. SmoothCache wykorzystuje zaobserwowane wysokie podobieństwo między wynikami warstw w sąsiednich krokach czasowych dyfuzji. Analizując błędy reprezentacji na poziomie warstw z małego zestawu kalibracyjnego, SmoothCache adaptacyjnie buforuje i ponownie wykorzystuje kluczowe cechy podczas wnioskowania. Nasze eksperymenty pokazują, że SmoothCache osiąga przyspieszenie od 8% do 71%, zachowując lub nawet poprawiając jakość generowania w różnych modalnościach. Prezentujemy jego skuteczność w DiT-XL do generowania obrazów, Open-Sora do tekstu na wideo oraz Stable Audio Open do tekstu na audio, podkreślając jego potencjał w umożliwianiu aplikacji działających w czasie rzeczywistym oraz poszerzaniu dostępności potężnych modeli DiT.
