இந்த தளத்தின் உள்ளடக்கம் செயற்கை நுண்ணறிவு (AI) அல்லது இயந்திர மொழிபெயர்ப்பு தொழில்நுட்பம் மூலம் மொழிபெயர்க்கப்பட்டுள்ளது; பிழைகள் இருக்கலாம்.

Skip to content
Artificial Intelligence

ஸ்மூத் கேச்: டிஃப்பியூஷன் டிரான்ஸ்ஃபார்மர்களுக்கான ஒரு பொதுவான அனுமான வேகப்படுத்தும் நுட்பம்

Author

ஜோசப் லியு (ராப்ளாக்ஸ்), ஜோஷுவா கெட்டெஸ் (குவீன்ஸ் பல்கலைக்கழகம்), ஸியு குவோ (ராப்ளாக்ஸ்), ஹாவோமியாவோ ஜியாங் (ராப்ளாக்ஸ்), மகேஷ் குமார் நந்தவனா (ராப்ளாக்ஸ்)

Venue

CVPR eLVM பயிலரங்கம் 2025

Abstract

படங்கள், வீடியோ மற்றும் பேச்சு உருவாக்கம் உள்ளிட்ட பல்வேறு பணிகளுக்காக, டிஃப்பியூஷன் டிரான்ஸ்ஃபார்மர்கள் (DiT) சக்திவாய்ந்த உருவாக்கும் மாதிரிகளாக உருவெடுத்துள்ளன. இருப்பினும், வளம் மிக்க அட்டென்ஷன் மற்றும் ஃபீட்-ஃபார்வர்டு தொகுதிகளின் மீண்டும் மீண்டும் மதிப்பீட்டால், அவற்றின் அனுமான செயல்முறை கணக்கீட்டு ரீதியாக அதிக செலவு மிக்கதாகவே உள்ளது. இதைச் சமாளிக்க, DiT கட்டமைப்புகளுக்கான ஒரு மாதிரி-சார்பற்ற அனுமான வேகப்படுத்துதல் நுட்பமான ஸ்மூத் கேஷை (SmoothCache) நாங்கள் அறிமுகப்படுத்துகிறோம். அருகிலுள்ள டிஃப்பியூஷன் டைம்ஸ்டெப்களில் உள்ள அடுக்கு வெளியீடுகளுக்கு இடையே காணப்படும் உயர் ஒற்றுமையை ஸ்மூத் கேஷ் பயன்படுத்துகிறது. ஒரு சிறிய அளவு சரிசெய்தல் தொகுப்பிலிருந்து அடுக்கு வாரியான பிரதிநிதித்துவப் பிழைகளைப் பகுப்பாய்வு செய்வதன் மூலம், SmoothCache மதிப்பீட்டின் போது முக்கிய அம்சங்களைத் தக்கவைத்து மீண்டும் பயன்படுத்துகிறது. எங்களின் சோதனைகள், SmoothCache ஆனது பல்வேறு வழிமுறைகளில் உருவாக்கும் தரத்தை பராமரிக்கும்போதோ அல்லது மேம்படுத்தும்போதோ, 8% முதல் 71% வரை வேகத்தை அதிகரிக்கிறது என்பதை நிரூபிக்கின்றன. பட உருவாக்கத்திற்கான DiT-XL, உரை-காணொளி மாற்றத்திற்கான Open-Sora, மற்றும் உரை-ஒலி மாற்றத்திற்கான Stable Audio Open ஆகியவற்றில் அதன் செயல்திறனை நாங்கள் காட்சிப்படுத்துகிறோம். இது நிகழ்நேரப் பயன்பாடுகளைச் செயல்படுத்தவும், சக்திவாய்ந்த DiT மாதிரிகளின் அணுகல்தன்மையை விரிவுபடுத்தவும் உள்ள அதன் திறனை எடுத்துக்காட்டுகிறது.