Artificial Intelligence
SmoothCache: 확산 트랜스포머를 위한 범용 추론 가속 기술
Author
Venue
CVPR eLVM 워크숍 2025
Abstract
확산 트랜스포머(DiT)는 이미지, 영상, 음성 합성을 포함한 다양한 작업에 강력한 생성 모델로 부상했습니다. 그러나 리소스 집약적인 어텐션 및 피드포워드 모듈을 반복적으로 평가해야 하기 때문에 여전히 추론 과정이 높은 연산 비용을 요구합니다. 이를 해결하기 위해, 본 연구에서는 DiT 아키텍처를 위한 모델 독립적 추론 가속 기술인 SmoothCache를 제안합니다. SmoothCache는 인접한 확산 시간 단계 간 레이어 출력 간의 높은 유사성을 활용합니다. SmoothCache는 소규모 보정 데이터셋을 통해 레이어별 표현 오차를 분석함으로써, 추론 과정에서 핵심 특징을 적응적으로 캐싱하고 재사용합니다. 실험 결과, SmoothCache는 다양한 모달리티에서 생성 품질을 유지하거나 심지어 향상시키면서도 8%에서 71%의 속도 향상을 달성하는 것으로 나타났습니다. 우리는 이미지 생성을 위한 DiT-XL, 텍스트-비디오 변환을 위한 Open-Sora, 텍스트-오디오 변환을 위한 Stable Audio Open에서 그 효과를 입증하며, 실시간 애플리케이션을 가능하게 하고 강력한 DiT 모델의 접근성을 확대할 수 있는 잠재력을 강조합니다.
