SmoothCache : une technique universelle d'accélération de l'inférence pour les transformateurs de diffusion
Author
Venue
Atelier CVPR eLVM 2025
Abstract
Les transformateurs de diffusion (DiT) se sont imposés comme de puissants modèles génératifs pour diverses tâches, notamment la synthèse d'images, de vidéos et de la parole. Cependant, leur processus d'inférence reste coûteux en termes de calcul en raison de l'évaluation répétée de modules d'attention et de propagation en avant gourmands en ressources. Pour y remédier, nous présentons SmoothCache, une technique d'accélération de l'inférence indépendante du modèle pour les architectures DiT. SmoothCache tire parti de la forte similitude observée entre les sorties des couches à travers des pas de temps de diffusion adjacents. En analysant les erreurs de représentation par couche à partir d'un petit ensemble d'étalonnage, SmoothCache met en cache et réutilise de manière adaptative les caractéristiques clés pendant l'inférence. Nos expériences démontrent que SmoothCache permet un gain de vitesse de 8 % à 71 % tout en maintenant, voire en améliorant, la qualité de génération dans diverses modalités. Nous démontrons son efficacité sur DiT-XL pour la génération d'images, Open-Sora pour la conversion texte-vidéo et Stable Audio Open pour la conversion texte-audio, soulignant son potentiel pour permettre des applications en temps réel et élargir l'accessibilité des puissants modèles DiT.
