Artificial Intelligence

SmoothCache: una tecnica universale di accelerazione dell'inferenza per i trasformatori di diffusione

Share

Author

Joseph Liu (Roblox), Joshua Geddes (Queen's University), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

Workshop CVPR eLVM 2025

Abstract

I Diffusion Transformers (DiT) si sono affermati come potenti modelli generativi per varie attività, tra cui la sintesi di immagini, video e voce. Tuttavia, il loro processo di inferenza rimane computazionalmente oneroso a causa della valutazione ripetuta di moduli di attenzione e feed-forward ad alta intensità di risorse. Per risolvere questo problema, introduciamo SmoothCache, una tecnica di accelerazione dell'inferenza indipendente dal modello per le architetture DiT. SmoothCache sfrutta l'elevata somiglianza osservata tra gli output dei livelli nei passi temporali di diffusione adiacenti. Analizzando gli errori di rappresentazione a livello di strato da un piccolo set di calibrazione, SmoothCache memorizza in cache e riutilizza in modo adattivo le caratteristiche chiave durante l'inferenza. I nostri esperimenti dimostrano che SmoothCache raggiunge un aumento di velocità dall'8% al 71%, mantenendo o addirittura migliorando la qualità della generazione in diverse modalità. Dimostriamo la sua efficacia su DiT-XL per la generazione di immagini, Open-Sora per il text-to-video e Stable Audio Open per il text-to-audio, evidenziando il suo potenziale nel consentire applicazioni in tempo reale e ampliare l'accessibilità di potenti modelli DiT.

Unisciti a noi per plasmare il futuro

Visualizza tutti i lavori

Recenti

Altri risultati

SmoothCache: una tecnica universale di accelerazione dell'inferenza per i trasformatori di diffusione

Author

Venue

Abstract

Unisciti a noi per plasmare il futuro

SmoothCache: una tecnica universale di accelerazione dell'inferenza per i trasformatori di diffusione

Author

Venue

Abstract

Related Publications

CubePart: un generatore 3D a vocabolario aperto e controllabile per parti

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Catalog-Native LLM: Dialetto ID elemento vocale con minore intrico per la raccomandazione

Unisciti a noi per plasmare il futuro