Google का OpenAI किलर: ल्यूमियर मल्टीमॉडल AI का अनावरण, टेक्स्ट, छवियों से 5-सेकंड के वीडियो बना सकता है

January 30, 2024 Team Khabarnama24

Google ने अपना नवीनतम AI मॉडल लॉन्च किया है। ल्यूमियर नामक यह मल्टीमॉडल वीडियो जेनरेशन टूल केवल टेक्स्ट या स्थिर छवियों का उपयोग करके यथार्थवादी 5-सेकंड लंबे वीडियो बनाने में सक्षम है।

Google खुद को उस स्थिति में ला रहा है जहां वह OpenAI के AI के प्रभुत्व को चुनौती दे सकता है।

गूगल ने अपना नवीनतम कृत्रिम बुद्धिमत्ता मॉडल, ल्यूमिएर, एक मल्टीमॉडल वीडियो जेनरेशन टूल पेश किया है जो यथार्थवादी 5-सेकंड लंबे वीडियो बनाने में सक्षम है।

ल्यूमियर एआई-जनरेटेड वीडियो में गति के यथार्थवाद को बढ़ाने के लिए स्पेस-टाइम यू-नेट (STUNet) आर्किटेक्चर का उपयोग करके टेक्स्ट-टू-वीडियो और इमेज-टू-वीडियो जेनरेशन दोनों का समर्थन करता है।

इंस्टाग्राम के सह-संस्थापकों द्वारा समर्थित एआई-न्यूज ऐप आर्टिफैक्ट को लॉन्च के 1 साल के भीतर दुकान बंद करने के लिए मजबूर किया गया

चैटजीपीटी, हमला! OpenAI अमेरिकी सशस्त्र बलों के साथ काम कर रहा है, उनके लिए साइबर सुरक्षा उपकरण बना रहा है

रनवे जेन-2 और पिका 1.0 जैसे मौजूदा मॉडलों के विपरीत, लुमियर को अभी तक सार्वजनिक नहीं किया गया है।

रिलीज़ के साथ प्रीप्रिंट पेपर के अनुसार, लुमिएरे का नवाचार स्थिर फ़्रेमों को संयोजित करने के बजाय एक ही प्रक्रिया में संपूर्ण वीडियो तैयार करने में निहित है।

यह दृष्टिकोण स्थानिक (वीडियो में वस्तुएं) और लौकिक (वीडियो के भीतर आंदोलन) दोनों पहलुओं के एक साथ निर्माण की अनुमति देता है, जिसके परिणामस्वरूप गति की अधिक प्राकृतिक धारणा होती है।

स्टेबल डिफ्यूजन के 25 फ्रेम की तुलना में ल्यूमियर 80 फ्रेम उत्पन्न करता है, स्थानिक और अस्थायी डाउन- और अप-सैंपलिंग का उपयोग करता है और पूर्व-प्रशिक्षित टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल का लाभ उठाता है।

हालाँकि लुमिएर परीक्षण के लिए उपलब्ध नहीं है, लेकिन इसकी वेबसाइट संबंधित टेक्स्ट संकेतों और इनपुट छवियों के साथ एआई मॉडल का उपयोग करके बनाए गए विभिन्न वीडियो दिखाती है।

उपकरण विभिन्न शैलियों में वीडियो बना सकता है, विशिष्ट वीडियो भागों को एनिमेट करने के लिए सिनेमोग्राफ बना सकता है, और संकेतों के आधार पर नकाबपोश वीडियो या छवियों को पूरा करके इनपेंटिंग कर सकता है।

Google का Lumiere मौजूदा AI मॉडल जैसे Runway Gen-2 (मार्च 2023 में लॉन्च) और Pika Lab के Pika 1.0 के साथ प्रतिस्पर्धा करता है, दोनों ही जनता के लिए उपलब्ध हैं।

जबकि पिका 3-सेकंड लंबे वीडियो (4 सेकंड तक बढ़ाया जा सकता है) बना सकता है, रनवे 4 सेकंड तक लंबे वीडियो बना सकता है। दोनों मॉडल मल्टीमॉडल क्षमताएं प्रदान करते हैं और वीडियो संपादन का समर्थन करते हैं।

(एजेंसियों से इनपुट के साथ)

Source link

संबंधित आलेख

चैटजीपीटी, हमला! OpenAI अमेरिकी सशस्त्र बलों के साथ काम कर रहा है, उनके लिए साइबर सुरक्षा उपकरण बना रहा है