मेटा ने भाषण ‘वॉयसबॉक्स’ के लिए जनरेटिव एआई मॉडल पेश किया
नयी दिल्ली: मेटा ने एक अत्याधुनिक जनरेटिव एआई मॉडल ‘वॉयसबॉक्स’ विकसित किया है, जिसे स्पीच जेनरेशन के क्षेत्र में क्रांति लाने के लिए डिजाइन किया गया है। मेटा ने एक ब्लॉग पोस्ट में कहा, “हमने वॉइसबॉक्स विकसित किया है, पहला मॉडल जो भाषण-पीढ़ी के कार्यों को सामान्यीकृत कर सकता है, इसे विशेष रूप से अत्याधुनिक प्रदर्शन के साथ पूरा करने के लिए प्रशिक्षित नहीं किया गया था।”
कंपनी के अनुसार, वॉइसबॉक्स विभिन्न शैलियों में चित्र और पाठ उत्पन्न करता है, और यह स्क्रैच से आउटपुट बना सकता है या इसे प्रदान किए गए नमूनों को संशोधित कर सकता है। हालाँकि, चित्र या पाठ का अंश बनाने के बजाय, Voicebox उच्च-गुणवत्ता वाली ऑडियो क्लिप बनाता है।
मॉडल अंग्रेजी, फ्रेंच, जर्मन, स्पेनिश, पोलिश और पुर्तगाली समेत छह भाषाओं में भाषण संश्लेषण का समर्थन करता है, साथ ही शोर हटाने, सामग्री संपादन, शैली रूपांतरण और विविध नमूना पीढ़ी भी करता है।
इसके अलावा, मेटा ने कहा कि वॉयसबॉक्स कच्चे ऑडियो और एक साथ ट्रांसक्रिप्शन से सीखने के लिए एक नया दृष्टिकोण उपयोग करता है। ऑडियो जनरेशन के लिए ऑटोरेग्रेसिव मॉडल के विपरीत, वॉयसबॉक्स किसी दिए गए नमूने के किसी भी हिस्से को संशोधित कर सकता है, न कि केवल एक ऑडियो क्लिप का अंत दिया गया है।
इसके अलावा, टेक दिग्गज ने कहा कि वॉइसबॉक्स को आसपास के भाषण और खंड के प्रतिलेख दिए जाने पर भाषण खंड की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है।
एक बार जब मॉडल ने संदर्भ से भाषण भरना सीख लिया है, तो इसे पूरी रिकॉर्डिंग को फिर से बनाए बिना ऑडियो रिकॉर्डिंग के हिस्सों को उत्पन्न करने सहित भाषण निर्माण कार्यों की एक विस्तृत श्रृंखला में लागू किया जा सकता है।
यह बहुमुखी प्रतिभा वॉयसबॉक्स को विभिन्न प्रकार के कार्यों में अच्छा प्रदर्शन करने में सक्षम बनाती है, जिसमें – संदर्भ में टेक्स्ट-टू-स्पीच सिंथेसिस, क्रॉस-लिंगुअल स्टाइल ट्रांसफर, स्पीच डीनोइजिंग और एडिटिंग, और विविध स्पीच सैंपलिंग शामिल हैं।