SmoothCache: डिफ्यूजन ट्रान्सफॉर्मर्ससाठी एक सार्वत्रिक इनफरन्स त्वरण तंत्र
Author
Venue
CVPR eLVM कार्यशाळा २०२५
Abstract
डिफ्यूजन ट्रान्सफॉर्मर्स (DiT) प्रतिमा, व्हिडिओ आणि भाषण संश्लेषण यांसारख्या विविध कार्यांसाठी शक्तिशाली जनरेटिव्ह मॉडेल्स म्हणून उदयास आले आहेत. तथापि, संसाधन-गहन अटेंशन आणि फीड-फॉरवर्ड मॉड्यूल्सच्या पुनरावृत्ती मूल्यांकनामुळे त्यांची इन्फरन्स प्रक्रिया गणनात्मकदृष्ट्या महागडी राहते. यावर उपाय म्हणून, आम्ही DiT आर्किटेक्चर्ससाठी मॉडेल-निरपेक्ष इन्फरन्स गती वाढवण्याची तंत्रे, SmoothCache, सादर करतो. SmoothCache सलग डिफ्यूजन टाइमस्टेप्समध्ये थर आउटपुट्समधील आढळलेल्या उच्च साम्याचा लाभ घेते. एका लहान कॅलिब्रेशन संचातून थर-निहाय प्रतिनिधित्व त्रुटींचे विश्लेषण करून, SmoothCache इन्फरन्स दरम्यान महत्वाच्या वैशिष्ट्यांना अनुकूलीपणे कॅश करते आणि पुन्हा वापरते. आमच्या प्रयोगांनी हे दाखवून दिले आहे की SmoothCache विविध माध्यमांमध्ये निर्मितीची गुणवत्ता कायम ठेवत किंवा त्यात सुधारणा करत ८% ते ७१% गतीने कामगिरी वाढवते. आम्ही प्रतिमा निर्मितीसाठी DiT-XL, मजकूर-ते-व्हिडिओसाठी Open-Sora, आणि मजकूर-ते-ऑडिओसाठी Stable Audio Open यावर त्याची परिणामकारकता दाखवतो, ज्याद्वारे रिअल-टाइम अनुप्रयोग सक्षम करण्याची आणि शक्तिशाली DiT मॉडेल्सची उपलब्धता वाढवण्याची त्याची क्षमता अधोरेखित होते.
