Nội dung trên trang web này đã được dịch bằng trí tuệ nhân tạo (AI) hoặc công nghệ dịch máy và có thể có lỗi.

Skip to content
Artificial Intelligence

SmoothCache: Một kỹ thuật tăng tốc suy luận phổ quát cho các mô hình biến đổi khuếch tán

Author

Joseph Liu (Roblox), Joshua Geddes (Đại học Queen's), Ziyu Guo (Roblox), Haomiao Jiang (Roblox), Mahesh Kumar Nandwana (Roblox)

Venue

Hội thảo CVPR eLVM 2025

Abstract

Diffusion Transformers (DiT) đã nổi lên như một mô hình tạo ra mạnh mẽ cho các tác vụ khác nhau, bao gồm tổng hợp hình ảnh, video và giọng nói. Tuy nhiên, quá trình suy luận của chúng vẫn tốn nhiều tài nguyên tính toán do việc đánh giá lặp đi lặp lại các mô-đun chú ý và truyền thẳng tốn nhiều tài nguyên. Để giải quyết vấn đề này, chúng tôi giới thiệu SmoothCache, một kỹ thuật tăng tốc suy luận không phụ thuộc vào mô hình cho các kiến trúc DiT. SmoothCache tận dụng sự tương đồng cao được quan sát thấy giữa các đầu ra của các lớp trong các bước thời gian khuếch tán liền kề. Bằng cách phân tích các sai số biểu diễn theo từng lớp từ một tập dữ liệu hiệu chỉnh nhỏ, SmoothCache lưu trữ và tái sử dụng các đặc trưng chính một cách thích ứng trong quá trình suy luận. Các thí nghiệm của chúng tôi cho thấy SmoothCache đạt được tốc độ nhanh hơn từ 8% đến 71% trong khi vẫn duy trì hoặc thậm chí cải thiện chất lượng tạo ra trên các phương thức đa dạng. Chúng tôi chứng minh hiệu quả của nó trên DiT-XL cho tạo hình ảnh, Open-Sora cho chuyển văn bản thành video và Stable Audio Open cho chuyển văn bản thành âm thanh, nhấn mạnh tiềm năng của nó trong việc hỗ trợ các ứng dụng thời gian thực và mở rộng khả năng tiếp cận các mô hình DiT mạnh mẽ.