SmoothCache: Teknik Akselerasi Inferensi Universal untuk Transformer Difusi
Author
Venue
Lokakarya CVPR eLVM 2025
Abstract
Diffusion Transformers (DiT) telah muncul sebagai model generatif yang kuat untuk berbagai tugas, termasuk sintesis gambar, video, dan ucapan. Namun, proses inferensinya tetap memakan banyak sumber daya komputasi karena evaluasi berulang dari modul perhatian dan feed-forward yang intensif sumber daya. Untuk mengatasi hal ini, kami memperkenalkan SmoothCache, sebuah teknik percepatan inferensi yang tidak bergantung pada model untuk arsitektur DiT. SmoothCache memanfaatkan kesamaan tinggi yang diamati antara keluaran lapisan di seluruh langkah waktu difusi yang berdekatan. Dengan menganalisis kesalahan representasi per lapisan dari kumpulan kalibrasi kecil, SmoothCache secara adaptif menyimpan dan menggunakan kembali fitur-fitur kunci selama inferensi. Eksperimen kami menunjukkan bahwa SmoothCache mencapai percepatan 8% hingga 71% sambil mempertahankan atau bahkan meningkatkan kualitas generasi di berbagai modalitas. Kami menunjukkan keefektifannya pada DiT-XL untuk generasi gambar, Open-Sora untuk teks-ke-video, dan Stable Audio Open untuk teks-ke-audio, menyoroti potensinya untuk memungkinkan aplikasi waktu nyata dan memperluas aksesibilitas model DiT yang kuat.
