I contenuti di questo sito sono stati tradotti mediante intelligenza artificiale (IA) o tecnologia di traduzione automatica e potrebbero contenere errori.

Skip to content
Artificial Intelligence

SmoothCache: una tecnica universale di accelerazione dell'inferenza per i trasformatori di diffusione

Author

Joseph Liu (Roblox), Joshua Geddes (Queen's University), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

Workshop CVPR eLVM 2025

Abstract

I Diffusion Transformers (DiT) si sono affermati come potenti modelli generativi per varie attività, tra cui la sintesi di immagini, video e voce. Tuttavia, il loro processo di inferenza rimane computazionalmente oneroso a causa della valutazione ripetuta di moduli di attenzione e feed-forward ad alta intensità di risorse. Per risolvere questo problema, introduciamo SmoothCache, una tecnica di accelerazione dell'inferenza indipendente dal modello per le architetture DiT. SmoothCache sfrutta l'elevata somiglianza osservata tra gli output dei livelli nei passi temporali di diffusione adiacenti. Analizzando gli errori di rappresentazione a livello di strato da un piccolo set di calibrazione, SmoothCache memorizza in cache e riutilizza in modo adattivo le caratteristiche chiave durante l'inferenza. I nostri esperimenti dimostrano che SmoothCache raggiunge un aumento di velocità dall'8% al 71%, mantenendo o addirittura migliorando la qualità della generazione in diverse modalità. Dimostriamo la sua efficacia su DiT-XL per la generazione di immagini, Open-Sora per il text-to-video e Stable Audio Open per il text-to-audio, evidenziando il suo potenziale nel consentire applicazioni in tempo reale e ampliare l'accessibilità di potenti modelli DiT.