क्यों Apple, Nvidia और अन्य अपने AI मॉडल को प्रशिक्षित करने के लिए YouTube का उपयोग कर रहे हैं, Google के नियमों को तोड़ने के बावजूद वास्तव में दोषी नहीं हैं – टाइम्स ऑफ इंडिया
प्रूफ न्यूज की जांच पर आधारित वायर्ड की एक रिपोर्ट के अनुसार, दुनिया की कुछ सबसे अमीर एआई कंपनियों ने अपने एआई मॉडल को प्रशिक्षित करने के लिए हजारों यूट्यूब वीडियो की सामग्री का इस्तेमाल किया है। रिपोर्ट में कहा गया है, “हमारी जांच में पाया गया कि 48,000 से अधिक चैनलों से चुराए गए 173,536 यूट्यूब वीडियो के उपशीर्षक का उपयोग सिलिकॉन वैली की दिग्गज कंपनियों द्वारा किया गया था, जिनमें एंथ्रोपिक, एनवीडिया, एप्पल और सेल्सफोर्स शामिल हैं।”
रिपोर्ट का दावा है कि YouTube सबटाइटल नामक डेटासेट में खान अकादमी, MIT और हार्वर्ड जैसे शैक्षिक और ऑनलाइन शिक्षण चैनलों के वीडियो ट्रांसक्रिप्ट शामिल हैं। वॉल स्ट्रीट जर्नल, एनपीआर और बीबीसी ने भी कथित तौर पर अपने वीडियो का इस्तेमाल AI को प्रशिक्षित करने के लिए किया था। YouTuber में, MKBHD, Pewdiepie और MrBeast के नाम शामिल हैं,
एप्पल, एनवीडिया और अन्य को दोषी क्यों नहीं ठहराया जा सकता?
हालाँकि, ऐसा लगता है कि इन कंपनियों को वास्तव में दोषी नहीं ठहराया जा सकता है, जैसा कि द्वारा प्रकाशित एक शोध पत्र के अनुसार है। एल्युथरएआईरिपोर्ट में कहा गया है कि इन कंपनियों द्वारा इस्तेमाल किया गया डेटासेट एक गैर-लाभकारी संगठन द्वारा जारी किए गए संकलन का हिस्सा है, जिसे पाइल कहा जाता है। पाइल के डेवलपर्स ने न केवल YouTube बल्कि यूरोपीय संसद की सामग्री भी शामिल की है।
इसका मतलब यह है कि Apple और अन्य ने जो उपशीर्षक इस्तेमाल किए, वे इस बड़े डेटा संग्रह सेट से आए थे। जैसा कि EleutherAI नामक समूह ने उपशीर्षक एकत्र किए और उन्हें द पाइल में डाल दिया। इस संग्रह को फिर किसी भी व्यक्ति के उपयोग के लिए ऑनलाइन रखा गया, जैसे कि एक निःशुल्क लाइब्रेरी। Apple और अन्य लोगों ने शायद सोचा कि इस डेटा का उपयोग करना ठीक है क्योंकि यह मुफ़्त में उपलब्ध था।
विवाद पर लोकप्रिय यूट्यूबर्स की राय
मार्केस ब्राउनली उर्फ एमकेबीएचडी ने इस खबर पर अपनी निराशा व्यक्त करने के लिए सोशल मीडिया का सहारा लिया। ब्राउनली ने एक्स पर एक पोस्ट में लिखा, “तकनीकी रूप से एप्पल यहां “गलती” से बचता है क्योंकि वे स्क्रैपिंग करने वाले नहीं हैं।” “लेकिन यह लंबे समय तक एक उभरती हुई समस्या होने जा रही है।”
ब्राउनली ने बताया कि कथित तौर पर किस तरह से प्रतिलेखन का इस्तेमाल किया गया एआई प्रशिक्षण एप्पल और अन्य द्वारा किये गए काम उनके द्वारा भुगतान किये गए काम हैं।
उन्होंने लिखा, “मजेदार तथ्य यह है कि मैं अपने खुद के वीडियो के अधिक सटीक ट्रांसक्रिप्शन के लिए एक सेवा (प्रति मिनट) का भुगतान करता हूं, जिसे मैं फिर YouTube के बैक-एंड पर अपलोड करता हूं। इसलिए ट्रांसक्रिप्ट को स्क्रैप करने वाली कंपनियां एक से अधिक तरीकों से *भुगतान* किए गए काम की चोरी कर रही हैं। यह बहुत अच्छा नहीं है।”
यह स्थिति दर्शाती है कि AI प्रशिक्षण में कई पेचीदा समस्याएं हैं। यह स्पष्ट नहीं है कि AI प्रशिक्षण के लिए ऑनलाइन सामग्री का उपयोग करने का अधिकार किसके पास है। अभी तक इस बारे में अच्छे नियम नहीं हैं कि कंपनियों को AI को प्रशिक्षित करने के लिए डेटा कैसे प्राप्त करना चाहिए। हमें लोगों के काम की सुरक्षा के साथ बेहतर AI बनाने के बीच संतुलन बनाने का तरीका खोजने की आवश्यकता है।
डेटा संग्रहण पर यूट्यूब क्या कहता है?
यूट्यूब का कहना है कि इस तरह के वीडियो का इस्तेमाल करना उनके नियमों का उल्लंघन है। इस साल की शुरुआत में एक इंटरव्यू में यूट्यूब के बॉस नील मोहन ने कहा था कि एआई को प्रशिक्षित करने के लिए उनके वीडियो का इस्तेमाल करना उचित नहीं है। गूगल के लीडर, सुन्दर पिचाईइस दृष्टिकोण से सहमत थे।