Artificial Intelligence

SmoothCache: een universele techniek voor het versnellen van inferentie voor diffusietransformatoren

Share

Author

Joseph Liu (Roblox), Joshua Geddes (Queen's University), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

CVPR eLVM-workshop 2025

Abstract

Diffusion Transformers (DiT) zijn in opkomst als krachtige generatieve modellen voor diverse taken, waaronder beeld-, video- en spraaksynthese. Hun inferentieproces blijft echter rekenintensief vanwege de herhaalde evaluatie van resource-intensieve attention- en feed-forward-modules. Om dit aan te pakken, introduceren we SmoothCache, een modelonafhankelijke techniek voor het versnellen van inferentie voor DiT-architecturen. SmoothCache maakt gebruik van de waargenomen hoge gelijkenis tussen laaguitkomsten in aangrenzende diffusietijdstappen. Door representatiefouten per laag uit een kleine kalibratieset te analyseren, slaat SmoothCache op adaptieve wijze belangrijke kenmerken op in de cache en hergebruikt deze tijdens de inferentie. Onze experimenten tonen aan dat SmoothCache een versnelling van 8% tot 71% realiseert, terwijl de generatiekwaliteit in diverse modaliteiten behouden blijft of zelfs verbetert. We demonstreren de effectiviteit ervan op DiT-XL voor beeldgeneratie, Open-Sora voor tekst-naar-video en Stable Audio Open voor tekst-naar-audio, waarbij we het potentieel benadrukken om realtime-toepassingen mogelijk te maken en de toegankelijkheid van krachtige DiT-modellen te verbreden.

Bouw samen met ons aan de toekomst

Alle vacatures bekijken

Nieuwste

Meer resultaten

SmoothCache: een universele techniek voor het versnellen van inferentie voor diffusietransformatoren

Author

Venue

Abstract

Bouw samen met ons aan de toekomst

SmoothCache: een universele techniek voor het versnellen van inferentie voor diffusietransformatoren

Author

Venue

Abstract

Related Publications

CubePart: een 3D-generator met open vocabulaire en regelbare onderdelen

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Catalog-Native LLM: Sprekende Item-ID-dialecten met minder verstrengeling voor aanbevelingen

Bouw samen met ons aan de toekomst