أثارت دراسة جديدة من مشروع الإفصاح عن الذكاء الاصطناعي أسئلة حول بيانات Openai لتدريب نماذج لغته الكبيرة (LLMS). يشير البحث إلى أن نموذج GPT-4O من Openai يوضح “اعترافًا قويًا” بالبيانات المحفورة بحقوق الطبع والنشر من كتب O'Reilly Media Books.
يهدف مشروع الإفصاح عن الذكاء الاصطناعى ، بقيادة الفني تيم أوريلي والاقتصادي إيلان شتراوس ، إلى معالجة الآثار المجتمعية الضارة المحتملة لتسويق الذكاء الاصطناعى من خلال الدعوة إلى تحسين الشفافية والتكنولوجية. تبرز ورقة عمل المشروع عدم الإفصاح في الذكاء الاصطناعي ، مما يوجه أوجه التشابه مع معايير الكشف المالي ودورها في تعزيز أسواق الأوراق المالية القوية.
استخدمت الدراسة مجموعة بيانات تم الحصول عليها قانونًا تضم 34 كتبًا وسائط O'Reilly المحمية بحقوق الطبع والنشر للتحقيق فيما إذا تم تدريب LLMs من Openai على بيانات محمية بحقوق الطبع والنشر دون موافقة. طبق الباحثون طريقة هجوم استدلال عضوية DE-COP لتحديد ما إذا كانت النماذج يمكن أن تفرق بين نصوص O'Reilly التي تم تأليفها الإنسان وإصدارات LLM المعاد صياغتها.
تشمل النتائج الرئيسية من التقرير:
- يُظهر GPT-4O “اعترافًا قويًا” بمحتوى كتاب O'Reilly Booked ، مع درجة AUROC بنسبة 82 ٪. في المقابل ، لا يظهر النموذج السابق لـ Openai ، GPT-3.5 Turbo ، نفس المستوى من الاعتراف (AUROC PROVER UPPED 50 ٪)
- يعرض GPT-4O اعترافًا أقوى بمحتوى كتاب O'Reilly غير العام مقارنة بالعينات التي يمكن الوصول إليها للجمهور (82 ٪ مقابل 64 ٪ من درجات AUROC على التوالي)
- يعرض GPT-3.5 Turbo اعترافًا نسبيًا أكبر لعينات كتاب O'Reilly التي يمكن الوصول إليها للجمهور من غيرها من العروض غير العامة (64 ٪ مقابل 54 ٪ من درجات AUROC)
- لم يظهر GPT-4O Mini ، وهو نموذج أصغر ، أي معرفة بمحتوى وسائل الإعلام العامة أو غير العامة عند اختباره (AUROC حوالي 50 ٪)
يقترح الباحثون أن انتهاكات الوصول قد حدثت عبر قاعدة بيانات Libgen ، حيث تم العثور على جميع كتب O'Reilly التي تم اختبارها هناك. كما يقرون أن LLMs الأحدث لديها قدرة محسنة على التمييز بين اللغة التي يتم تأليفها الإنسان وتولدها الرشاشات ، والتي لا تقلل من قدرة الطريقة على تصنيف البيانات.
تسلط الدراسة الضوء على احتمال “التحيز الزمني” في النتائج ، بسبب تغيرات اللغة مع مرور الوقت. لحساب ذلك ، اختبر الباحثون نموذجين (GPT-4O و GPT-4O Mini) المدربين على البيانات من نفس الفترة.
يشير التقرير إلى أنه على الرغم من أن الأدلة خاصة بكتب Openai و O'Reilly Media ، فمن المحتمل أن يعكس مشكلة نظامية حول استخدام البيانات المحمية بحقوق الطبع والنشر. يجادل بأن استخدام بيانات التدريب غير المعوّل يمكن أن يؤدي إلى انخفاض في جودة محتوى الإنترنت وتنوعه ، مع انخفاض تدفقات الإيرادات لإنشاء المحتوى المهني.
يؤكد مشروع إفصاح الذكاء الاصطناعي على الحاجة إلى مساءلة أقوى في عمليات تدريب شركات الذكاء الاصطناعى. ويقترحون أن أحكام المسؤولية التي تحفز شفافية الشركات المحسنة في الكشف عن مصدر البيانات قد تكون خطوة مهمة نحو تسهيل الأسواق التجارية لتدريب ترخيص البيانات والمكافآت.
يمكن أن تساعد متطلبات الكشف عن قانون AI في الاتحاد الأوروبي في تشغيل دورة معايير الكشف الإيجابية إذا تم تحديدها وتطبيقها بشكل صحيح. التأكد من أن حاملي IP يعرفون متى يتم استخدام عملهم في التدريب النماذج ، يُنظر إلى التدريب على أنه خطوة حاسمة نحو إنشاء أسواق الذكاء الاصطناعى لبيانات منشئ المحتوى.
على الرغم من الأدلة على أن شركات الذكاء الاصطناعى قد تحصل على بيانات بشكل غير قانوني للتدريب النموذجي ، فإن السوق يبرز حيث يدفع مطورو نموذج الذكاء الاصطناعى للمحتوى من خلال صفقات الترخيص. شركات مثل Defined.ai تسهل شراء بيانات التدريب ، والحصول على موافقة من مقدمي البيانات وتجريد المعلومات الشخصية.
يخلص التقرير إلى القول إنه باستخدام 34 كتبًا إعلامية لملكية O'Reilly ، تقدم الدراسة أدلة تجريبية على أن Openai من المحتمل أن تدرب GPT-4O على البيانات غير الحكومية المحمية بحقوق الطبع والنشر.
(صورة بواسطة سيرجي توكماكوف)
انظر أيضا: يوفر الأنثروبور نظرة ثاقبة على “بيولوجيا الذكاء الاصطناعى” لكلود
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.