SmoothCache: Difüzyon Dönüştürücüler için Evrensel Bir Çıkarım Hızlandırma Tekniği
Author
Venue
CVPR eLVM Çalıştayı 2025
Abstract
Difüzyon Dönüştürücüler (DiT), görüntü, video ve konuşma sentezi dahil olmak üzere çeşitli görevler için güçlü üretken modeller olarak ortaya çıkmıştır. Ancak, kaynak yoğun dikkat ve ileri besleme modüllerinin tekrar tekrar değerlendirilmesi nedeniyle, bunların çıkarım süreci hesaplama açısından hala maliyetlidir. Bu sorunu çözmek için, DiT mimarileri için modelden bağımsız bir çıkarım hızlandırma tekniği olan SmoothCache'i sunuyoruz. SmoothCache, bitişik difüzyon zaman adımları arasında katman çıktılarının gözlemlenen yüksek benzerliğinden yararlanır. SmoothCache, küçük bir kalibrasyon kümesinden katman bazlı temsil hatalarını analiz ederek, çıkarım sırasında temel özellikleri uyarlanabilir bir şekilde önbelleğe alır ve yeniden kullanır. Deneylerimiz, SmoothCache'in çeşitli modalitelerde üretim kalitesini korurken veya hatta iyileştirirken %8 ila %71 arasında hız artışı sağladığını göstermektedir. Görüntü üretimi için DiT-XL, metinden videoya dönüştürme için Open-Sora ve metinden sese dönüştürme için Stable Audio Open üzerinde etkinliğini sergiliyor ve gerçek zamanlı uygulamaları mümkün kılma ve güçlü DiT modellerinin erişilebilirliğini genişletme potansiyelini vurguluyoruz.
