SmoothCache: Một kỹ thuật tăng tốc suy luận phổ quát cho các mô hình biến đổi khuếch tán
Author
Venue
Hội thảo CVPR eLVM 2025
Abstract
Diffusion Transformers (DiT) đã nổi lên như một mô hình tạo ra mạnh mẽ cho các tác vụ khác nhau, bao gồm tổng hợp hình ảnh, video và giọng nói. Tuy nhiên, quá trình suy luận của chúng vẫn tốn nhiều tài nguyên tính toán do việc đánh giá lặp đi lặp lại các mô-đun chú ý và truyền thẳng tốn nhiều tài nguyên. Để giải quyết vấn đề này, chúng tôi giới thiệu SmoothCache, một kỹ thuật tăng tốc suy luận không phụ thuộc vào mô hình cho các kiến trúc DiT. SmoothCache tận dụng sự tương đồng cao được quan sát thấy giữa các đầu ra của các lớp trong các bước thời gian khuếch tán liền kề. Bằng cách phân tích các sai số biểu diễn theo từng lớp từ một tập dữ liệu hiệu chỉnh nhỏ, SmoothCache lưu trữ và tái sử dụng các đặc trưng chính một cách thích ứng trong quá trình suy luận. Các thí nghiệm của chúng tôi cho thấy SmoothCache đạt được tốc độ nhanh hơn từ 8% đến 71% trong khi vẫn duy trì hoặc thậm chí cải thiện chất lượng tạo ra trên các phương thức đa dạng. Chúng tôi chứng minh hiệu quả của nó trên DiT-XL cho tạo hình ảnh, Open-Sora cho chuyển văn bản thành video và Stable Audio Open cho chuyển văn bản thành âm thanh, nhấn mạnh tiềm năng của nó trong việc hỗ trợ các ứng dụng thời gian thực và mở rộng khả năng tiếp cận các mô hình DiT mạnh mẽ.
