البيانات هي النفط الجديد، كما يقولون، وربما هذا يجعل من جامعة هارفارد شركة إكسون الجديدة. أعلنت المدرسة يوم الخميس عن إطلاق مجموعة بيانات تحتوي على ما يقرب من مليون كتاب ذو ملكية عامة يمكن استخدامها لتدريب نماذج الذكاء الاصطناعي. وبموجب مبادرة البيانات المؤسسية التي تم تشكيلها حديثًا، تلقى المشروع تمويلًا من كل من Microsoft وOpenAI، ويحتوي على كتب تم مسحها ضوئيًا بواسطة Google Books وهي قديمة بما يكفي لانتهاء صلاحية حماية حقوق الطبع والنشر الخاصة بها.
سلكي في مقال عن المشروع الجديد، يقول إن مجموعة البيانات تتضمن مجموعة واسعة من الكتب التي تحتوي على “كلاسيكيات شكسبير وتشارلز ديكنز ودانتي جنبًا إلى جنب مع كتب الرياضيات التشيكية الغامضة وقواميس الجيب الويلزية”. كقاعدة عامة، تستمر حماية حقوق النشر طوال عمر المؤلف بالإضافة إلى 70 عامًا إضافية.
تتطلب نماذج اللغة الأساسية، مثل ChatGPT، التي تتصرف وكأنها نسخة واقعية من إنسان حقيقي، قدرًا هائلاً من النصوص عالية الجودة لتدريبها – وبشكل عام، كلما زادت المعلومات التي تستوعبها، كان أداء النماذج أفضل في تقليد البشر وخدمة المعرفة. لكن هذا التعطش للبيانات تسبب في حدوث مشكلات، حيث اصطدمت أمثال OpenAI بجدران بشأن مقدار المعلومات الجديدة التي يمكنها العثور عليها – دون سرقتها، على الأقل.
الناشرين بما في ذلك وول ستريت جورنال و نيويورك تايمز رفعوا دعوى قضائية ضد OpenAI والمنافس Perplexity لاستيعاب بياناتهم دون إذن. قدم أنصار شركات الذكاء الاصطناعي حججًا مختلفة للدفاع عن أنشطتهم. سيقولون أحيانًا أن البشر أنفسهم ينتجون أعمالًا جديدة بناءً على دراسة وتوليف المواد من مصادر أخرى، ولا يختلف الذكاء الاصطناعي عن ذلك. يذهب الجميع إلى المدرسة، ويقرأون الكتب، ثم ينتجون أعمالًا جديدة باستخدام المعرفة التي اكتسبوها. يعتبر إعادة المزج من الناحية القانونية استخدامًا عادلاً إذا كان الإنشاء الجديد مختلفًا بشكل جوهري. لكن هذا لا يأخذ في الاعتبار أن البشر لا يستطيعون استيعاب مليارات الأجزاء من النص بالسرعة التي يستطيع بها الكمبيوتر، لذا فهي ليست مقارنة عادلة تمامًا. ال وول ستريت جورنال وقالت في الدعوى المرفوعة ضد شركة Perplexity إن الشركة الناشئة “تنسخ على نطاق واسع”.
طرح اللاعبون في هذا المجال أيضًا الحجة القائلة بأن أي محتوى متاح على الويب المفتوح هو في الأساس لعبة عادلة وأن مستخدم برنامج الدردشة الآلي هو الشخص الذي يصل إلى المحتوى المحمي بحقوق الطبع والنشر عن طريق طلبه من خلال المطالبة. في الأساس، يشبه برنامج الدردشة الآلي مثل Perplexity متصفح الويب. سوف يستغرق الأمر بعض الوقت قبل أن يتم عرض هذه الحجج في المحكمة.
أبرمت شركة OpenAI صفقات مع بعض موفري المحتوى ردًا على الانتقادات، كما أطلقت شركة Perplexity برنامج شركاء مدعومًا بالإعلانات مع الناشرين. لكن من الواضح أنهم فعلوا ذلك على مضض.
في الوقت نفسه الذي تعاني فيه شركات الذكاء الاصطناعي من نفاد المحتوى الجديد الذي يمكن استخدامه، بدأت مصادر الويب شائعة الاستخدام والتي تم تضمينها بالفعل في مجموعات التدريب في تقييد الوصول بسرعة. كانت الشركات، بما في ذلك Reddit وX، صارمة بشأن الحد من استخدام بياناتها لأنها أدركت قيمتها الهائلة، خاصة في الحصول على بيانات في الوقت الفعلي لتعزيز النماذج الأساسية بمزيد من المعلومات الحديثة عن العالم.
تجني Reddit مئات الملايين من الدولارات من ترخيص مجموعة من المنتديات الفرعية والتعليقات الخاصة بها إلى Google لتدريب نماذجها. لدى Elon Musk's X ترتيب حصري مع شركته الأخرى، xAI، لمنح نماذجها إمكانية الوصول إلى محتوى الشبكة الاجتماعية للتدريب واسترجاع المعلومات الحالية. ومن المثير للسخرية أن نعتبر أن هذه الشركات تحرس بياناتها الخاصة عن كثب، ولكنها تعتقد بشكل أساسي أن المحتوى الذي يقدمه ناشرو الوسائط ليس له قيمة ويجب أن يكون مجانيًا.
لن يكون مليون كتاب كافيًا لتلبية الاحتياجات التدريبية لأي شركة ذكاء اصطناعي، خاصة وأن هذه الكتب قديمة ولا تحتوي على معلومات حديثة، مثل اللغة العامية التي يستخدمها أطفال الجيل Z. ومن أجل تمييز نفسها عن المنافسين، سوف ترغب شركات الذكاء الاصطناعي في الاستمرار في الوصول إلى البيانات الأخرى – وخاصة النوع الحصري – بحيث لا تقوم جميعها بإنشاء نماذج متماثلة. يمكن لمجموعة بيانات مبادرة البيانات المؤسسية أن تقدم على الأقل بعض المساعدة لشركات الذكاء الاصطناعي التي تحاول تدريب نماذجها التأسيسية الأولية دون الوقوع في أي مشكلة قانونية.