SmoothCache: een universele techniek voor het versnellen van inferentie voor diffusietransformatoren
Author
Venue
CVPR eLVM-workshop 2025
Abstract
Diffusion Transformers (DiT) zijn in opkomst als krachtige generatieve modellen voor diverse taken, waaronder beeld-, video- en spraaksynthese. Hun inferentieproces blijft echter rekenintensief vanwege de herhaalde evaluatie van resource-intensieve attention- en feed-forward-modules. Om dit aan te pakken, introduceren we SmoothCache, een modelonafhankelijke techniek voor het versnellen van inferentie voor DiT-architecturen. SmoothCache maakt gebruik van de waargenomen hoge gelijkenis tussen laaguitkomsten in aangrenzende diffusietijdstappen. Door representatiefouten per laag uit een kleine kalibratieset te analyseren, slaat SmoothCache op adaptieve wijze belangrijke kenmerken op in de cache en hergebruikt deze tijdens de inferentie. Onze experimenten tonen aan dat SmoothCache een versnelling van 8% tot 71% realiseert, terwijl de generatiekwaliteit in diverse modaliteiten behouden blijft of zelfs verbetert. We demonstreren de effectiviteit ervan op DiT-XL voor beeldgeneratie, Open-Sora voor tekst-naar-video en Stable Audio Open voor tekst-naar-audio, waarbij we het potentieel benadrukken om realtime-toepassingen mogelijk te maken en de toegankelijkheid van krachtige DiT-modellen te verbreden.
