मेटा ने भाषण ‘वॉयसबॉक्स’ के लिए जनरेटिव एआई मॉडल पेश किया


नयी दिल्ली: मेटा ने एक अत्याधुनिक जनरेटिव एआई मॉडल ‘वॉयसबॉक्स’ विकसित किया है, जिसे स्पीच जेनरेशन के क्षेत्र में क्रांति लाने के लिए डिजाइन किया गया है। मेटा ने एक ब्लॉग पोस्ट में कहा, “हमने वॉइसबॉक्स विकसित किया है, पहला मॉडल जो भाषण-पीढ़ी के कार्यों को सामान्यीकृत कर सकता है, इसे विशेष रूप से अत्याधुनिक प्रदर्शन के साथ पूरा करने के लिए प्रशिक्षित नहीं किया गया था।”

कंपनी के अनुसार, वॉइसबॉक्स विभिन्न शैलियों में चित्र और पाठ उत्पन्न करता है, और यह स्क्रैच से आउटपुट बना सकता है या इसे प्रदान किए गए नमूनों को संशोधित कर सकता है। हालाँकि, चित्र या पाठ का अंश बनाने के बजाय, Voicebox उच्च-गुणवत्ता वाली ऑडियो क्लिप बनाता है।

मॉडल अंग्रेजी, फ्रेंच, जर्मन, स्पेनिश, पोलिश और पुर्तगाली समेत छह भाषाओं में भाषण संश्लेषण का समर्थन करता है, साथ ही शोर हटाने, सामग्री संपादन, शैली रूपांतरण और विविध नमूना पीढ़ी भी करता है।

इसके अलावा, मेटा ने कहा कि वॉयसबॉक्स कच्चे ऑडियो और एक साथ ट्रांसक्रिप्शन से सीखने के लिए एक नया दृष्टिकोण उपयोग करता है। ऑडियो जनरेशन के लिए ऑटोरेग्रेसिव मॉडल के विपरीत, वॉयसबॉक्स किसी दिए गए नमूने के किसी भी हिस्से को संशोधित कर सकता है, न कि केवल एक ऑडियो क्लिप का अंत दिया गया है।

इसके अलावा, टेक दिग्गज ने कहा कि वॉइसबॉक्स को आसपास के भाषण और खंड के प्रतिलेख दिए जाने पर भाषण खंड की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है।

एक बार जब मॉडल ने संदर्भ से भाषण भरना सीख लिया है, तो इसे पूरी रिकॉर्डिंग को फिर से बनाए बिना ऑडियो रिकॉर्डिंग के हिस्सों को उत्पन्न करने सहित भाषण निर्माण कार्यों की एक विस्तृत श्रृंखला में लागू किया जा सकता है।

यह बहुमुखी प्रतिभा वॉयसबॉक्स को विभिन्न प्रकार के कार्यों में अच्छा प्रदर्शन करने में सक्षम बनाती है, जिसमें – संदर्भ में टेक्स्ट-टू-स्पीच सिंथेसिस, क्रॉस-लिंगुअल स्टाइल ट्रांसफर, स्पीच डीनोइजिंग और एडिटिंग, और विविध स्पीच सैंपलिंग शामिल हैं।





Source link