SmoothCache: เทคนิคการเร่งการอนุมานแบบสากลสำหรับ Diffusion Transformers
Author
Venue
การประชุมเชิงปฏิบัติการ CVPR eLVM 2025
Abstract
ตัวแปลงการแพร่กระจาย (Diffusion Transformers หรือ DiT) ได้กลายเป็นแบบจำลองการสร้างที่ทรงพลังสำหรับงานต่างๆ รวมถึงการสร้างภาพ วิดีโอ และเสียง อย่างไรก็ตาม กระบวนการอนุมานของพวกเขายังคงมีค่าใช้จ่ายในการคำนวณสูงเนื่องจากการประเมินซ้ำของโมดูลความสนใจและการส่งข้อมูลไปข้างหน้าที่ใช้ทรัพยากรมาก เพื่อแก้ไขปัญหานี้ เราขอแนะนำ SmoothCache ซึ่งเป็นเทคนิคการเร่งการอนุมานที่ไม่ขึ้นกับโมเดลสำหรับสถาปัตยกรรม DiT SmoothCache ใช้ประโยชน์จากความคล้ายคลึงกันสูงที่สังเกตได้ระหว่างผลลัพธ์ของเลเยอร์ระหว่างช่วงเวลาการแพร่กระจายที่อยู่ติดกัน โดยการวิเคราะห์ข้อผิดพลาดของการแทนค่าแบบชั้นต่อชั้นจากชุดข้อมูลการปรับเทียบขนาดเล็ก SmoothCache สามารถแคชและนำคุณลักษณะสำคัญกลับมาใช้ใหม่ได้อย่างเหมาะสมในระหว่างการอนุมาน การทดลองของเราแสดงให้เห็นว่า SmoothCache สามารถเพิ่มความเร็วได้ถึง 8% ถึง 71% ในขณะที่ยังคงรักษาหรือแม้กระทั่งปรับปรุงคุณภาพการสร้างในหลากหลายรูปแบบ เราแสดงให้เห็นถึงประสิทธิภาพของมันบน DiT-XL สำหรับการสร้างภาพ, Open-Sora สำหรับการสร้างวิดีโอจากข้อความ, และ Stable Audio Open สำหรับการสร้างเสียงจากข้อความ โดยเน้นถึงศักยภาพในการเปิดใช้งานแอปพลิเคชันแบบเรียลไทม์และขยายการเข้าถึงของโมเดล DiT ที่ทรงพลัง
