Artificial Intelligence

SmoothCache: uniwersalna technika przyspieszania wnioskowania dla transformatorów dyfuzyjnych

Share

Author

Joseph Liu (Roblox), Joshua Geddes (Queen's University), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

Warsztaty CVPR eLVM 2025

Abstract

Transformatory dyfuzyjne (DiT) stały się potężnymi modelami generatywnymi do różnych zadań, w tym syntezy obrazu, wideo i mowy. Jednak ich proces wnioskowania pozostaje obciążający obliczeniowo ze względu na powtarzającą się ocenę modułów uwagi i modułów feed-forward, które wymagają dużych zasobów. Aby temu zaradzić, wprowadzamy SmoothCache, technikę przyspieszania wnioskowania niezależną od modelu dla architektur DiT. SmoothCache wykorzystuje zaobserwowane wysokie podobieństwo między wynikami warstw w sąsiednich krokach czasowych dyfuzji. Analizując błędy reprezentacji na poziomie warstw z małego zestawu kalibracyjnego, SmoothCache adaptacyjnie buforuje i ponownie wykorzystuje kluczowe cechy podczas wnioskowania. Nasze eksperymenty pokazują, że SmoothCache osiąga przyspieszenie od 8% do 71%, zachowując lub nawet poprawiając jakość generowania w różnych modalnościach. Prezentujemy jego skuteczność w DiT-XL do generowania obrazów, Open-Sora do tekstu na wideo oraz Stable Audio Open do tekstu na audio, podkreślając jego potencjał w umożliwianiu aplikacji działających w czasie rzeczywistym oraz poszerzaniu dostępności potężnych modeli DiT.

Dołącz do nas i kształtuj przyszłość

Zobacz wszystkie oferty pracy

Najnowsze

Więcej wyników

SmoothCache: uniwersalna technika przyspieszania wnioskowania dla transformatorów dyfuzyjnych

Author

Venue

Abstract

Dołącz do nas i kształtuj przyszłość

SmoothCache: uniwersalna technika przyspieszania wnioskowania dla transformatorów dyfuzyjnych

Author

Venue

Abstract

Related Publications

CubePart: generator 3D z otwartym słownictwem i możliwością sterowania częściami

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Katalogowy model LLM: Mówienie w dialekcie identyfikatorów elementów z mniejszym stopniem splątania w celu rekomendacji

Dołącz do nas i kształtuj przyszłość