Artificial Intelligence

SmoothCache : une technique universelle d'accélération de l'inférence pour les transformateurs de diffusion

Share

Author

Joseph Liu (Roblox), Joshua Geddes (Université Queen's), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

Atelier CVPR eLVM 2025

Abstract

Les transformateurs de diffusion (DiT) se sont imposés comme de puissants modèles génératifs pour diverses tâches, notamment la synthèse d'images, de vidéos et de la parole. Cependant, leur processus d'inférence reste coûteux en termes de calcul en raison de l'évaluation répétée de modules d'attention et de propagation en avant gourmands en ressources. Pour y remédier, nous présentons SmoothCache, une technique d'accélération de l'inférence indépendante du modèle pour les architectures DiT. SmoothCache tire parti de la forte similitude observée entre les sorties des couches à travers des pas de temps de diffusion adjacents. En analysant les erreurs de représentation par couche à partir d'un petit ensemble d'étalonnage, SmoothCache met en cache et réutilise de manière adaptative les caractéristiques clés pendant l'inférence. Nos expériences démontrent que SmoothCache permet un gain de vitesse de 8 % à 71 % tout en maintenant, voire en améliorant, la qualité de génération dans diverses modalités. Nous démontrons son efficacité sur DiT-XL pour la génération d'images, Open-Sora pour la conversion texte-vidéo et Stable Audio Open pour la conversion texte-audio, soulignant son potentiel pour permettre des applications en temps réel et élargir l'accessibilité des puissants modèles DiT.

Rejoignez-nous pour façonner l'avenir

Voir toutes les offres d'emploi

Récents

Plus de résultats

SmoothCache : une technique universelle d'accélération de l'inférence pour les transformateurs de diffusion

Author

Venue

Abstract

Rejoignez-nous pour façonner l'avenir

SmoothCache : une technique universelle d'accélération de l'inférence pour les transformateurs de diffusion

Author

Venue

Abstract

Related Publications

CubePart : un générateur 3D à vocabulaire ouvert et contrôlable par parties

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Catalog-Native LLM : un modèle de dialogue avec moins d'enchevêtrements pour la recommandation

Rejoignez-nous pour façonner l'avenir