वीडियो जेनरेशन मॉडल जैसे सोरा, ड्रीम मशीन, वेओ और क्लिंग तेजी से प्रगति कर रहे हैं, जिससे उपयोगकर्ताओं को टेक्स्ट प्रॉम्प्ट्स से वीडियो बनाने की अनुमति मिलती है। लेकिन, इनमें से अधिकांश सिस्टम साइलेंट वीडियो तक सीमित हैं। Google DeepMind इस समस्या से अवगत है और अब एक नया बड़ा भाषा मॉडल विकसित कर रहा है जो वीडियो के लिए साउंडट्रैक और संवाद उत्पन्न कर सकता है।

एक ब्लॉग पोस्ट में, टेक दिग्गज के एआई अनुसंधान लैब ने V2A (वीडियो-टू-ऑडियो) का अनावरण किया, जो एक नया विकासाधीन एआई मॉडल है जो “वीडियो पिक्सल को प्राकृतिक भाषा टेक्स्ट प्रॉम्प्ट्स के साथ मिलाकर ऑन-स्क्रीन एक्शन के लिए समृद्ध साउंडस्केप उत्पन्न करता है।”

वेओ के साथ संगत, जो एक टेक्स्ट-टू-वीडियो मॉडल है जिसे कंपनी ने हाल ही में समाप्त हुए गूगल I/O 2024 में पेश किया, V2A का उपयोग नाटकीय संगीत, यथार्थवादी ध्वनि प्रभाव और संवाद जोड़ने के लिए किया जा सकता है जो वीडियो के टोन से मेल खाता है। Google का कहना है कि नया बड़ा भाषा मॉडल “पारंपरिक फुटेज” जैसे मूक फिल्मों और आर्काइव सामग्री के साथ भी काम करता है।

नया V2A मॉडल किसी भी वीडियो के लिए “अनंत संख्या में साउंडट्रैक” उत्पन्न कर सकता है और इसमें एक वैकल्पिक ‘सकारात्मक प्रॉम्प्ट’ और ‘नकारात्मक प्रॉम्प्ट’ शामिल हैं, जिसका उपयोग आपके पसंद के अनुसार आउटपुट को ट्यून करने के लिए किया जा सकता है। यह SynthID तकनीक के साथ उत्पन्न ऑडियो को वाटरमार्क भी करता है।

DeepMind की V2A तकनीक ध्वनि के वर्णन को इनपुट के रूप में लेती है और ध्वनियों, संवाद ट्रांसक्रिप्ट्स और वीडियो के संयोजन पर प्रशिक्षित एक डिफ्यूजन मॉडल का उपयोग करती है। चूंकि मॉडल बहुत सारे वीडियो पर प्रशिक्षित नहीं था, आउटपुट कभी-कभी विकृत हो सकता है। Google यह भी कहता है कि V2A को जल्द ही जनता के लिए जारी नहीं किया जाएगा ताकि दुरुपयोग को रोका जा सके।