تعتبر شركة أبل هي الأحدث في سلسلة طويلة من مطوري الذكاء الاصطناعي التوليدي – وهي القائمة التي يبلغ عمرها تقريبًا نفس عمر الصناعة – والتي تم ضبطها وهي تقوم باستخراج محتوى محمي بحقوق الطبع والنشر من وسائل التواصل الاجتماعي من أجل تدريب أنظمة الذكاء الاصطناعي الخاصة بها.
وفقًا لتقرير جديد من Proof News، استخدمت Apple مجموعة بيانات تحتوي على ترجمات لـ 173536 مقطع فيديو على YouTube لتدريب الذكاء الاصطناعي الخاص بها. ومع ذلك، فإن Apple ليست وحدها في هذه المخالفة، على الرغم من قواعد YouTube المحددة ضد استغلال مثل هذه البيانات دون إذن. تم القبض على شركات أخرى كبيرة في مجال الذكاء الاصطناعي تستخدمها أيضًا، بما في ذلك Anthropic و Nvidia و Salesforce.
تحتوي مجموعة البيانات، المعروفة باسم ترجمات يوتيوب، على نصوص فيديو من أكثر من 48000 قناة يوتيوب، من أكاديمية خان ومعهد ماساتشوستس للتكنولوجيا وهارفارد إلى صحيفة وول ستريت جورنال وإذاعة إن بي آر وهيئة الإذاعة البريطانية. حتى النصوص من برامج المنوعات في وقت متأخر من الليل مثل “The Late Show With Stephen Colbert” و”Last Week Tonight with John Oliver” و”Jimmy Kimmel Live” هي جزء من قاعدة بيانات ترجمات يوتيوب. كما تم رفع مقاطع فيديو من مؤثرين على يوتيوب مثل ماركيز براونلي ومستر بيست، بالإضافة إلى عدد من منظري المؤامرة، دون إذن.
لا تحتوي مجموعة البيانات نفسها، التي جمعتها شركة EleutherAI الناشئة، على أي ملفات فيديو، على الرغم من أنها تتضمن عددًا من الترجمات إلى لغات أخرى بما في ذلك اليابانية والألمانية والعربية. وبحسب ما ورد حصلت EleutherAI على بياناتها من مجموعة بيانات أكبر، تسمى Pile، والتي تم إنشاؤها بواسطة منظمة غير ربحية سحبت بياناتها ليس فقط من YouTube ولكن أيضًا من سجلات البرلمان الأوروبي وويكيبيديا.
بلومبرج، الأنثروبية و بيانات بريكس كما دربوا نماذج على The Pile، كما تشير المنشورات النسبية للشركات. قالت جينيفر مارتينيز، المتحدثة باسم Anthropic، في بيان لـ Proof News: “يتضمن The Pile مجموعة فرعية صغيرة جدًا من ترجمات YouTube”. “تغطي شروط YouTube الاستخدام المباشر لمنصتها، وهو أمر مختلف عن استخدام مجموعة بيانات The Pile. فيما يتعلق بالنقطة المتعلقة بالانتهاكات المحتملة لشروط خدمة YouTube، سيتعين علينا إحالتك إلى مؤلفي The Pile”.
وبعيدًا عن التفاصيل الفنية، فإن الشركات الناشئة في مجال الذكاء الاصطناعي التي تستفيد من محتويات الإنترنت المفتوحة كانت تشكل مشكلة منذ ظهور ChatGPT لأول مرة. وتواجه Stability AI وMidjourney حاليًا دعوى قضائية من قِبَل منشئي المحتوى بسبب مزاعم بأنهم قاموا بنسخ أعمالهم المحمية بحقوق الطبع والنشر دون إذن. وتعرضت شركة Google نفسها، التي تدير YouTube، لدعوى قضائية جماعية في يوليو/تموز الماضي ثم دعوى أخرى في سبتمبر/أيلول، والتي تزعم الشركة أنها “ستضرب ليس فقط خدمات Google ولكن أيضًا فكرة الذكاء الاصطناعي التوليدي”.
أنا: ما هي البيانات التي تم استخدامها لتدريب سورا؟ مقاطع فيديو يوتيوب؟
المدير التقني لشركة OpenAI: أنا لست متأكدًا من ذلك في الواقع…(أنا حقا أشجعك على مشاهدة الفيلم كاملا @صحيفة وول ستريت جورنال مقابلة أجاب فيها موراتي على العديد من الأسئلة الكبرى حول سورا. المقابلة الكاملة، ومن المفارقات، على يوتيوب:… pic.twitter.com/51O8Wyt53c
— جوانا ستيرن (@JoannaStern) 14 مارس 2024
علاوة على ذلك، تواجه شركات الذكاء الاصطناعي نفسها صعوبة بالغة في تحديد مصادر الحصول على بيانات التدريب الخاصة بها. في مقابلة في مارس 2024 مع جوانا ستيرن من صحيفة وول ستريت جورنال، تعثرت ميرا موراتي، المديرة التقنية لشركة OpenAI، مرارًا وتكرارًا عندما سُئلت عما إذا كانت شركتها تستخدم مقاطع فيديو من YouTube وFacebook ومنصات التواصل الاجتماعي الأخرى لتدريب نماذجها. قالت موراتي: “لن أخوض في تفاصيل البيانات المستخدمة”.
وفي يوليو/تموز الماضي، طرح الرئيس التنفيذي لشركة مايكروسوفت للذكاء الاصطناعي مصطفى سليمان الحجة القائلة بأن “العقد الاجتماعي” الغامض يعني أن أي شيء موجود على شبكة الإنترنت هو لعبة عادلة.
وقال سليمان لشبكة سي إن بي سي: “أعتقد أنه فيما يتعلق بالمحتوى الموجود بالفعل على شبكة الإنترنت المفتوحة، فإن العقد الاجتماعي لهذا المحتوى منذ التسعينيات كان أنه استخدام عادل”. “يمكن لأي شخص نسخه وإعادة إنشائه وإعادة إنتاجه به. كان ذلك مجانيًا، إذا شئت، هذا هو الفهم”.