స్మూత్క్యాష్: డిఫ్యూజన్ ట్రాన్స్ఫార్మర్ల కోసం ఒక సార్వత్రిక ఇన్ఫెరెన్స్ వేగవంతం చేసే పద్ధతి
Author
Venue
CVPR eLVM వర్క్షాప్ 2025
Abstract
డిఫ్యూజన్ ట్రాన్స్ఫార్మర్లు (DiT) చిత్రం, వీడియో, మరియు స్పీచ్ సింథసిస్తో సహా వివిధ పనుల కోసం శక్తివంతమైన జెనరేటివ్ మోడల్స్గా ఆవిర్భవించాయి. అయితే, వనరుల-ఇంటెన్సివ్ అటెన్షన్ మరియు ఫీడ్-ఫార్వర్డ్ మాడ్యూల్స్ యొక్క పునరావృత మూల్యాంకనం కారణంగా వాటి ఇన్ఫెరెన్స్ ప్రక్రియ కంప్యూటేషనల్గా ఖరీదైనదిగా మిగిలిపోయింది. దీనిని పరిష్కరించడానికి, మేము DiT ఆర్కిటెక్చర్ల కోసం మోడల్-అగ్నోస్టిక్ ఇన్ఫెరెన్స్ యాక్సిలరేషన్ టెక్నిక్ అయిన స్మూత్క్యాష్ (SmoothCache) ను పరిచయం చేస్తున్నాము. స్మూత్క్యాష్, ఆనుకుని ఉన్న డిఫ్యూజన్ టైమ్స్టెప్లలో పొరల అవుట్పుట్ల మధ్య గమనించిన అధిక సారూప్యతను ఉపయోగించుకుంటుంది. ఒక చిన్న కాలిబ్రేషన్ సెట్ నుండి పొరల వారీగా ప్రాతినిధ్య లోపాలను విశ్లేషించడం ద్వారా, స్మూత్క్యాష్ ఇన్ఫెరెన్స్ సమయంలో ముఖ్యమైన ఫీచర్లను అనుకూలంగా క్యాష్ చేసి పునఃవినియోగిస్తుంది. మా ప్రయోగాలు, విభిన్న మాధ్యమాలలో జనరేషన్ నాణ్యతను నిలుపుకుంటూ లేదా మెరుగుపరుస్తూనే, స్మూత్క్యాష్ 8% నుండి 71% వేగవృద్ధిని సాధిస్తుందని నిరూపించాయి. చిత్ర జనరేషన్ కోసం DiT-XL, టెక్స్ట్-టు-వీడియో కోసం ఓపెన్-సోరా, మరియు టెక్స్ట్-టు-ఆడియో కోసం స్టెబుల్ ఆడియో ఓపెన్లపై దీని ప్రభావాన్ని మేము ప్రదర్శిస్తున్నాము. ఇది నిజ-సమయ అప్లికేషన్లను సాధ్యం చేయడానికి మరియు శక్తివంతమైన DiT మోడళ్ల లభ్యతను విస్తరించడానికి గల సామర్థ్యాన్ని కూడా హైలైట్ చేస్తుంది.
