माइक्रोसॉफ्ट इस एआई मॉडल का परीक्षण कर रहा है, जिसके बारे में उन्हें लगता है कि इसे लॉन्च करना “बहुत जोखिम भरा” है – टाइम्स ऑफ इंडिया



माइक्रोसॉफ्ट ने एक शोध परियोजना प्रकाशित की है जो VALL-E स्पीच एआई मॉडल की दूसरी पीढ़ी को दिखाती है जो ऑडियो सैंपल से किसी भी आवाज़ का अनुकरण कर सकती है। वैल-ई 2यह मॉडल अपने पूर्ववर्ती मॉडल की तुलना में अपने प्रदर्शन को बेहतर बनाने के लिए दो महत्वपूर्ण संवर्द्धन लेकर आया है।
कंपनी ने कहा, “VALL-E 2 न्यूरल कोडेक भाषा मॉडल में नवीनतम प्रगति है जो शून्य-शॉट टेक्स्ट-टू-स्पीच संश्लेषण (TTS) में एक मील का पत्थर है, जो पहली बार मानव समानता प्राप्त करता है।”

VALL-E 2 मॉडल में दो संवर्द्धन

माइक्रोसॉफ्ट का कहना है कि VALL-E 2, VALL-E द्वारा रखी गई नींव पर आधारित है, और यह लाता है पुनरावृत्ति जागरूक नमूनाकरण और समूहीकृत कोड मॉडलिंग.
रिपीटिशन अवेयर सैंपलिंग डिकोडिंग इतिहास में टोकन रिपीटिशन को ध्यान में रखकर मूल न्यूक्लियस सैंपलिंग प्रक्रिया को परिष्कृत करता है और डिकोडिंग को स्थिर करता है। समूहीकृत कोड मॉडलिंग अनुक्रम लंबाई को प्रभावी ढंग से छोटा करने के लिए कोडेक कोड को समूहों में व्यवस्थित करता है। यह अनुमान लगाने की गति को बढ़ाता है और लंबे अनुक्रम मॉडलिंग की चुनौतियों का समाधान करता है।
“लिब्रीस्पीच और वीसीटीके डेटासेट पर किए गए हमारे प्रयोगों से पता चला है कि वीएएलएल-ई 2 भाषण मजबूती, स्वाभाविकता और वक्ता समानता में पिछले शून्य-शॉट टीटीएस सिस्टम से आगे निकल जाता है। यह इन बेंचमार्क पर मानवीय समानता तक पहुंचने वाला अपनी तरह का पहला है,” माइक्रोसॉफ्ट ने कहा।

माइक्रोसॉफ्ट इसे आम जनता के लिए लॉन्च करने की योजना क्यों नहीं बना रहा है?

माइक्रोसॉफ्ट के शोधकर्ताओं का कहना है कि VALL-E 2 पूरी तरह से एक शोध परियोजना है। वे कहते हैं कि इस मॉडल का इस्तेमाल शैक्षिक शिक्षण, मनोरंजन, पत्रकारिता, स्व-लिखित सामग्री, सुलभता सुविधाओं, इंटरैक्टिव वॉयस रिस्पॉन्स सिस्टम, अनुवाद चैटबॉट आदि के लिए किया जा सकता है, लेकिन इसमें जोखिम भी काफी है।
कंपनी ने कहा, “वैल-ई 2 वॉयस टैलेंट जैसी आवाज़ में बोल सकता है, लेकिन समानता और स्वाभाविकता स्पीच प्रॉम्प्ट की लंबाई और गुणवत्ता, पृष्ठभूमि शोर और अन्य कारकों पर निर्भर करती है। मॉडल के दुरुपयोग में संभावित जोखिम हो सकते हैं, जैसे कि आवाज़ की पहचान को धोखा देना या किसी विशिष्ट वक्ता की नकल करना।”
कंपनी ने कहा कि इस मॉडल से संबंधित सभी प्रयोग इस धारणा के साथ किए जाते हैं कि उपयोगकर्ता लक्ष्य वक्ता बनने के लिए सहमत है और वक्ता की सहमति प्राप्त कर ली गई है।





Source link