SmoothCache: una técnica universal de aceleración de la inferencia para transformadores de difusión
Author
Venue
Taller CVPR eLVM 2025
Abstract
Los transformadores de difusión (DiT) se han convertido en potentes modelos generativos para diversas tareas, entre las que se incluyen la síntesis de imágenes, vídeo y voz. Sin embargo, su proceso de inferencia sigue siendo computacionalmente costoso debido a la evaluación repetida de módulos de atención y de propagación hacia adelante que consumen muchos recursos. Para abordar este problema, presentamos SmoothCache, una técnica de aceleración de la inferencia independiente del modelo para arquitecturas DiT. SmoothCache aprovecha la alta similitud observada entre las salidas de las capas en pasos de tiempo de difusión adyacentes. Mediante el análisis de los errores de representación por capas a partir de un pequeño conjunto de calibración, SmoothCache almacena en caché y reutiliza de forma adaptativa las características clave durante la inferencia. Nuestros experimentos demuestran que SmoothCache logra una aceleración del 8 % al 71 %, al tiempo que mantiene o incluso mejora la calidad de la generación en diversas modalidades. Demostramos su eficacia en DiT-XL para la generación de imágenes, Open-Sora para texto a vídeo y Stable Audio Open para texto a audio, destacando su potencial para habilitar aplicaciones en tiempo real y ampliar la accesibilidad de los potentes modelos DiT.
