الفاينانشيال تايمز أعلن صفقة مع OpenAI يوم الاثنين لترخيص صحافتها ذات المستوى العالمي للتدريب والإعلام نماذج ChatGPT. وينضم إلى أكسل سبرينغر ووكالة أسوشيتد برس الذين أبرموا صفقات مماثلة، حيث قامت شركة OpenAI يقال أنه يقدم الملايين من أجل الحق في استخدام المحتوى. ومع ذلك، تم تدريب ChatGPT على الكثير من محتويات الويب الأخرى التي لم تدفع OpenAI مقابلها. فلماذا تدفع شركة OpenAI مقابل بعض مجموعات البيانات دون غيرها؟
يبدو أن صفقات ترخيص OpenAI تبعث برسالة واضحة: سنستخدم المحتوى الخاص بك على أي حال، لذا قم بتوقيع صفقة معنا أو تتخلف عن الركب. يبدو أن الميزة الرئيسية لصفقة الترخيص هي مكان بارز في إجابات ChatGPT. قد يرغب بعض الناشرين أيضًا في ترسيخ العلاقة مع قناة توزيع المعلومات الكبيرة التالية قبل أن تتولى المسؤولية. ومع ذلك، يبدو أن OpenAI تستخدم الكثير من محتوى الناشرين على أي حال.
تقوم OpenAI بالفعل بتدريب نماذج الذكاء الاصطناعي الخاصة بها جزئيًا على “البيانات المتاحة للجمهور“وفقًا لـ CTO Mira Murati، والذي يبدو غامضًا عن قصد. ما هي البيانات المتاحة للجمهور على أي حال؟ تفترض العبارة أن أي شيء مجاني للقراءة على الإنترنت يمكن أيضًا دمجه مجانًا في ChatGPT. على سبيل المثال، يعد Gizmodo جزءًا من “البيانات المتاحة للعامة” الخاصة بشركة OpenAI. تم تخزين موقعنا مؤقتًا 34000 مرة على WebText الخاص بـ GPT-2 مجموعة البيانات، هي آخر مجموعة بيانات كشفت عنها OpenAI وتستخدم لتدريب نموذج الذكاء الاصطناعي.
Gizmodo مجاني للقراء ويرجع ذلك إلى حد كبير إلى الإعلانات الموجودة على صفحة الويب هذه. إذا تمكن القراء من الوصول إلى المحتوى الخاص بنا من خلال ChatGPT فإن ذلك يكسر نموذج أعمالنا. صحيفة نيويورك تايمز، والتي يتم استخدامها بشكل ملحوظ في مجموعة بيانات WebText الخاصة بـ GPT-2، رفع دعوى قضائية ضد OpenAI بسبب انتهاك حقوق الطبع والنشر على هذه المسألة بالذات.
يبدو أن صفقة ترخيص المحتوى مع OpenAI هي الطريقة الوحيدة للناشرين للبقاء على صلة بعصر الذكاء الاصطناعي. في بيان صحفييقول جون ريدنج، الرئيس التنفيذي لمجموعة فاينانشيال تايمز، إن هذه الصفقة “ستوسع نطاق” عملهم بينما تقدم “رؤى مبكرة حول كيفية ظهور المحتوى من خلال الذكاء الاصطناعي”.
قال ماثيو باتريك، المحامي الذي يمثل سارة سيلفرمان ومؤلفي كتب آخرين يرفعون دعوى قضائية ضد OpenAI، في مقابلة مع Gizmodo: “الأمر المتعلق بالذكاء الاصطناعي هو أنه ليس ذكاءً اصطناعيًا حقًا”. “إنه الذكاء البشري الذي تم حصاده من مكان واحد، وفصله عن مبدعيه، ثم تضع شركة التكنولوجيا الكبيرة هذه سعرًا عليه وتبيعه لشخص آخر.”
باتريك هو المدعي في ست دعاوى قضائية تتعلق بحقوق الطبع والنشر ضد شركات الذكاء الاصطناعي. وهو أيضًا كاتب ومبرمج ومصمم، لذلك يقول إنه يفهم كيف يمكن للذكاء الاصطناعي أن يهدد هذه الصناعات. بشكل عام، تتمحور قضاياه حول الادعاء بأن الذكاء الاصطناعي يستخدم في الوقت نفسه عمل المبدعين ويهدد سبل عيشهم.
أثارت صفقات ترخيص OpenAI دهشة حول المحتوى الذي يستخدمه ChatGPT مجانًا. وقد جادلت شركات التكنولوجيا بأن الذكاء الاصطناعي التوليدي هو “استخدام عادل” للأعمال المحمية بحقوق الطبع والنشر لأنه يحولها إلى شيء جديد. جادل عالم الذكاء الاصطناعي أيضًا بأنه يستخدم نموذجًا مشابهًا لبحث Google، الذي يقوم بتخزين المحتوى المحمي بحقوق الطبع والنشر مؤقتًا لإنشاء أداة مفيدة للعثور على المعلومات. على غرار Google، بدأت روبوتات الدردشة المدعمة بالذكاء الاصطناعي مؤخرًا في تضمين الارتباطات التشعبية. في نهاية المطاف، سيتعين على المحكمة أن تقرر ما إذا كان الذكاء الاصطناعي التوليدي يعتبر “استخداما عادلا”.
لم يستجب OpenAI على الفور لطلب Gizmodo للتعليق.
مؤلفو الكتب والناشرون ليسوا الوحيدين الذين يبدو أن OpenAI يأخذون المحتوى منهم. ذكرت صحيفة نيويورك تايمز مؤخرًا أن OpenAI قامت بتدريب GPT-4 على أكثر من ذلك مليون ساعة من مقاطع الفيديو المكتوبة على YouTube. وقبل أيام من صدور التقرير، قال الرئيس التنفيذي لموقع YouTube إن استخدام مقاطع الفيديو الخاصة به للتدريب على الذكاء الاصطناعي سيكون “انتهاكًا واضحًا” لسياساته.
صفقات ترخيص محتوى OpenAI تعكر صفو المناقشة. تستخدم الشركة بطريقة أو بأخرى محتوى الإنترنت مجانًا، بينما تدفع أيضًا للآخرين مقابل عملهم. وبحسب ما ورد، كانت شركات التكنولوجيا الأخرى، مثل Apple، أكثر نشاطًا بشأن الدفع مقابل جميع بيانات التدريب الخاصة بها. يقال إن شركة Adobe دفعت 3 دولارات للدقيقة الواحدة من الفيديو لتدريب مولد الفيديو AI الخاص به.
ومع ذلك، ليس من الواضح ما إذا كان حتى الدفع لمرة واحدة للحصول على بيانات تدريب الذكاء الاصطناعي كافيًا. نحن نتحدث عن أداة يمكنها أن تقلب صناعة الإعلام للكتاب ومنتجي الصوت والفيديو وغيرهم. قد يضمن لك توقيع صفقة مع OpenAI مكانًا جيدًا في نتائج ChatGPT، ولكن يبدو أن برنامج الدردشة الآلي المزود بالذكاء الاصطناعي ربما كان يستخدم المحتوى الخاص بك على أي حال. على الأقل في الوقت الحالي، تحرص شركات الذكاء الاصطناعي على استخدام كل شيء على الإنترنت وطرح أسئلة حول مدى شرعيته لاحقًا.