ஸ்மூத் கேச்: டிஃப்பியூஷன் டிரான்ஸ்ஃபார்மர்களுக்கான ஒரு பொதுவான அனுமான வேகப்படுத்தும் நுட்பம்
Author
Venue
CVPR eLVM பயிலரங்கம் 2025
Abstract
படங்கள், வீடியோ மற்றும் பேச்சு உருவாக்கம் உள்ளிட்ட பல்வேறு பணிகளுக்காக, டிஃப்பியூஷன் டிரான்ஸ்ஃபார்மர்கள் (DiT) சக்திவாய்ந்த உருவாக்கும் மாதிரிகளாக உருவெடுத்துள்ளன. இருப்பினும், வளம் மிக்க அட்டென்ஷன் மற்றும் ஃபீட்-ஃபார்வர்டு தொகுதிகளின் மீண்டும் மீண்டும் மதிப்பீட்டால், அவற்றின் அனுமான செயல்முறை கணக்கீட்டு ரீதியாக அதிக செலவு மிக்கதாகவே உள்ளது. இதைச் சமாளிக்க, DiT கட்டமைப்புகளுக்கான ஒரு மாதிரி-சார்பற்ற அனுமான வேகப்படுத்துதல் நுட்பமான ஸ்மூத் கேஷை (SmoothCache) நாங்கள் அறிமுகப்படுத்துகிறோம். அருகிலுள்ள டிஃப்பியூஷன் டைம்ஸ்டெப்களில் உள்ள அடுக்கு வெளியீடுகளுக்கு இடையே காணப்படும் உயர் ஒற்றுமையை ஸ்மூத் கேஷ் பயன்படுத்துகிறது. ஒரு சிறிய அளவு சரிசெய்தல் தொகுப்பிலிருந்து அடுக்கு வாரியான பிரதிநிதித்துவப் பிழைகளைப் பகுப்பாய்வு செய்வதன் மூலம், SmoothCache மதிப்பீட்டின் போது முக்கிய அம்சங்களைத் தக்கவைத்து மீண்டும் பயன்படுத்துகிறது. எங்களின் சோதனைகள், SmoothCache ஆனது பல்வேறு வழிமுறைகளில் உருவாக்கும் தரத்தை பராமரிக்கும்போதோ அல்லது மேம்படுத்தும்போதோ, 8% முதல் 71% வரை வேகத்தை அதிகரிக்கிறது என்பதை நிரூபிக்கின்றன. பட உருவாக்கத்திற்கான DiT-XL, உரை-காணொளி மாற்றத்திற்கான Open-Sora, மற்றும் உரை-ஒலி மாற்றத்திற்கான Stable Audio Open ஆகியவற்றில் அதன் செயல்திறனை நாங்கள் காட்சிப்படுத்துகிறோம். இது நிகழ்நேரப் பயன்பாடுகளைச் செயல்படுத்தவும், சக்திவாய்ந்த DiT மாதிரிகளின் அணுகல்தன்மையை விரிவுபடுத்தவும் உள்ள அதன் திறனை எடுத்துக்காட்டுகிறது.
