इस साइट की सामग्री का अनुवाद कृत्रिम बुद्धिमत्ता (AI) या मशीन अनुवाद तकनीक का उपयोग करके किया गया है, और इसमें त्रुटियाँ हो सकती हैं.

Skip to content
Human Computer Interaction

म्यूजिक वीडियो का लिरिक वीडियो में स्वचालित रूपांतरण

Author

जियाजू मा (स्टैनफोर्ड), एनीई राव (स्टैनफोर्ड), ली-यी वेई (एडोब), रुबैयात हबीब काज़ी (एडोब), हिजंग वैलेन्टिना शिन (एडोब), और मनीष अग्रवाल (स्टैनफोर्ड + रॉब्लॉक्स)

Venue

यूआईएसटी 2023

Abstract

संगीतकार और प्रशंसक अक्सर अपने पसंदीदा गीतों के लिए लिरिक वीडियो बनाते हैं, जो संगीत वीडियो का एक रूप है जो गीत के बोलों को प्रदर्शित करता है। हालांकि, ऐसे वीडियो बनाना चुनौतीपूर्ण और समय लेने वाला हो सकता है क्योंकि बोलों को वीडियो के साथ समन्वय और दृश्य सामंजस्य में जोड़ने की आवश्यकता होती है। पिछले काम और मौजूदा लिरिक वीडियो की गहन जांच से प्रेरित होकर, हम रचनाकारों को ऐसे वीडियो बनाने में मदद करने के लिए डिज़ाइन दिशानिर्देशों का एक सेट प्रस्तावित करते हैं। हमारे दिशानिर्देश गीत के बोलों की पठनीयता सुनिश्चित करते हैं, साथ ही ध्यान के एकीकृत केंद्र को बनाए रखते हैं। हम इन दिशानिर्देशों को एक पूरी तरह से स्वचालित पाइपलाइन में लागू करते हैं जो एक इनपुट संगीत वीडियो को एक लिरिक वीडियो में परिवर्तित करती है। हम विभिन्न प्रकार के इनपुट स्रोतों से लिरिक वीडियो उत्पन्न करके अपनी पाइपलाइन की मजबूती का प्रदर्शन करते हैं। एक उपयोगकर्ता अध्ययन से पता चलता है कि हमारी पाइपलाइन द्वारा उत्पन्न लिरिक वीडियो, पाठ की पठनीयता बनाए रखने और ध्यान के केंद्र को एकीकृत करने में प्रभावी हैं।