このサイトのコンテンツは、人工知能(AI)または機械翻訳技術を使用して翻訳されており、誤りが含まれている場合があります。

Skip to content
Artificial Intelligence

SmoothCache:拡散トランスフォーマーのための汎用推論高速化技術

Author

Joseph Liu(Roblox)、Joshua Geddes(クイーンズ大学)、Ziyu Guo(Roblox)、Haomiao Jiang(Roblox)、Mahesh Kumar Nandwana(Roblox)

Venue

CVPR eLVMワークショップ 2025

Abstract

ディフュージョン・トランスフォーマー(DiT)は、画像、動画、音声合成など、様々なタスクにおいて強力な生成モデルとして登場しました。しかし、リソースを大量に消費するアテンションモジュールやフィードフォワードモジュールの評価が繰り返されるため、その推論プロセスは依然として計算負荷が高いままです。この課題に対処するため、我々はDiTアーキテクチャ向けのモデル非依存型推論高速化技術「SmoothCache」を提案します。SmoothCacheは、隣接する拡散タイムステップ間の層出力間に見られる高い類似性を活用します。 SmoothCacheは、小規模なキャリブレーションセットから層ごとの表現誤差を分析することで、推論中に主要な特徴量を適応的にキャッシュし、再利用する。 実験の結果、SmoothCacheは多様なモダリティにおいて生成品質を維持、あるいは向上させつつ、8%から71%の処理速度向上を達成することが示された。画像生成におけるDiT-XL、テキストから動画への変換におけるOpen-Sora、テキストから音声への変換におけるStable Audio Openでの有効性を実証し、リアルタイムアプリケーションの実現や、高性能なDiTモデルの利用拡大に向けたその可能性を浮き彫りにした。