ادعاءات ادعاءات Openai تدرب نماذج الذكاء الاصطناعي على البيانات المحمية بحقوق الطبع والنشر

أثارت دراسة جديدة من مشروع الإفصاح عن الذكاء الاصطناعي أسئلة حول بيانات Openai لتدريب نماذج لغته الكبيرة (LLMS). يشير البحث إلى أن نموذج GPT-4O من Openai يوضح “اعترافًا قويًا” بالبيانات المحفورة بحقوق الطبع والنشر من كتب O'Reilly Media Books.

يهدف مشروع الإفصاح عن الذكاء الاصطناعى ، بقيادة الفني تيم أوريلي والاقتصادي إيلان شتراوس ، إلى معالجة الآثار المجتمعية الضارة المحتملة لتسويق الذكاء الاصطناعى من خلال الدعوة إلى تحسين الشفافية والتكنولوجية. تبرز ورقة عمل المشروع عدم الإفصاح في الذكاء الاصطناعي ، مما يوجه أوجه التشابه مع معايير الكشف المالي ودورها في تعزيز أسواق الأوراق المالية القوية.

استخدمت الدراسة مجموعة بيانات تم الحصول عليها قانونًا تضم 34 كتبًا وسائط O'Reilly المحمية بحقوق الطبع والنشر للتحقيق فيما إذا تم تدريب LLMs من Openai على بيانات محمية بحقوق الطبع والنشر دون موافقة. طبق الباحثون طريقة هجوم استدلال عضوية DE-COP لتحديد ما إذا كانت النماذج يمكن أن تفرق بين نصوص O'Reilly التي تم تأليفها الإنسان وإصدارات LLM المعاد صياغتها.

تشمل النتائج الرئيسية من التقرير:

يُظهر GPT-4O “اعترافًا قويًا” بمحتوى كتاب O'Reilly Booked ، مع درجة AUROC بنسبة 82 ٪. في المقابل ، لا يظهر النموذج السابق لـ Openai ، GPT-3.5 Turbo ، نفس المستوى من الاعتراف (AUROC PROVER UPPED 50 ٪)

يعرض GPT-4O اعترافًا أقوى بمحتوى كتاب O'Reilly غير العام مقارنة بالعينات التي يمكن الوصول إليها للجمهور (82 ٪ مقابل 64 ٪ من درجات AUROC على التوالي)

يعرض GPT-3.5 Turbo اعترافًا نسبيًا أكبر لعينات كتاب O'Reilly التي يمكن الوصول إليها للجمهور من غيرها من العروض غير العامة (64 ٪ مقابل 54 ٪ من درجات AUROC)

لم يظهر GPT-4O Mini ، وهو نموذج أصغر ، أي معرفة بمحتوى وسائل الإعلام العامة أو غير العامة عند اختباره (AUROC حوالي 50 ٪)

يقترح الباحثون أن انتهاكات الوصول قد حدثت عبر قاعدة بيانات Libgen ، حيث تم العثور على جميع كتب O'Reilly التي تم اختبارها هناك. كما يقرون أن LLMs الأحدث لديها قدرة محسنة على التمييز بين اللغة التي يتم تأليفها الإنسان وتولدها الرشاشات ، والتي لا تقلل من قدرة الطريقة على تصنيف البيانات.

تسلط الدراسة الضوء على احتمال “التحيز الزمني” في النتائج ، بسبب تغيرات اللغة مع مرور الوقت. لحساب ذلك ، اختبر الباحثون نموذجين (GPT-4O و GPT-4O Mini) المدربين على البيانات من نفس الفترة.

يشير التقرير إلى أنه على الرغم من أن الأدلة خاصة بكتب Openai و O'Reilly Media ، فمن المحتمل أن يعكس مشكلة نظامية حول استخدام البيانات المحمية بحقوق الطبع والنشر. يجادل بأن استخدام بيانات التدريب غير المعوّل يمكن أن يؤدي إلى انخفاض في جودة محتوى الإنترنت وتنوعه ، مع انخفاض تدفقات الإيرادات لإنشاء المحتوى المهني.

يؤكد مشروع إفصاح الذكاء الاصطناعي على الحاجة إلى مساءلة أقوى في عمليات تدريب شركات الذكاء الاصطناعى. ويقترحون أن أحكام المسؤولية التي تحفز شفافية الشركات المحسنة في الكشف عن مصدر البيانات قد تكون خطوة مهمة نحو تسهيل الأسواق التجارية لتدريب ترخيص البيانات والمكافآت.

يمكن أن تساعد متطلبات الكشف عن قانون AI في الاتحاد الأوروبي في تشغيل دورة معايير الكشف الإيجابية إذا تم تحديدها وتطبيقها بشكل صحيح. التأكد من أن حاملي IP يعرفون متى يتم استخدام عملهم في التدريب النماذج ، يُنظر إلى التدريب على أنه خطوة حاسمة نحو إنشاء أسواق الذكاء الاصطناعى لبيانات منشئ المحتوى.

على الرغم من الأدلة على أن شركات الذكاء الاصطناعى قد تحصل على بيانات بشكل غير قانوني للتدريب النموذجي ، فإن السوق يبرز حيث يدفع مطورو نموذج الذكاء الاصطناعى للمحتوى من خلال صفقات الترخيص. شركات مثل Defined.ai تسهل شراء بيانات التدريب ، والحصول على موافقة من مقدمي البيانات وتجريد المعلومات الشخصية.

يخلص التقرير إلى القول إنه باستخدام 34 كتبًا إعلامية لملكية O'Reilly ، تقدم الدراسة أدلة تجريبية على أن Openai من المحتمل أن تدرب GPT-4O على البيانات غير الحكومية المحمية بحقوق الطبع والنشر.

(صورة بواسطة سيرجي توكماكوف)

انظر أيضا: يوفر الأنثروبور نظرة ثاقبة على “بيولوجيا الذكاء الاصطناعى” لكلود

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.

استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.

مقالات قد تهمك

بين الحقائق والمبالغات.. هل نجح ChatGPT حقًا في إنقاذ كلب من السرطان؟

يبدو أن مشكلات VPN على هاتفك هي خطأ لم يتم إصلاحه في Android 16

تقدم Mint Mobile هواتف Samsung Galaxy S26 بخصومات تصل إلى 600 دولار.

يواجه كلود تقطير نموذج الذكاء الاصطناعي “على المستوى الصناعي”.

نوكيا وأمازون ويب سيرفيسز تجربان أتمتة الذكاء الاصطناعي لتقطيع شبكات الجيل الخامس (5G).

استكشاف الذكاء الاصطناعي في قطاع البيع بالتجزئة بآسيا والمحيط الهادئ.

كيف تدمج المؤسسات المالية الذكاء الاصطناعي في عمليات اتخاذ القرار.

يكشف (Murder Mystery 2) عن سلوك ناشئ للاعبين عبر الإنترنت.

يستهدف نموذج تنبؤ بالذكاء الاصطناعي تحسين كفاءة موارد الرعاية الصحية.

يقود الذكاء الاصطناعي التوكيلي (Agentic AI) العائد على الاستثمار المالي في أتمتة الحسابات الدائنة.

قراصنة مدعومون من دول يستغلون الذكاء الاصطناعي في هجمات سيبرانية: جوجل.

كيف يفصل المنطق والبحث عن تعزيز قابلية التوسع لعامل الذكاء الاصطناعي.

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

يحصل iPhone على أول تطبيق إباحي أصلي له

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

استخدم chatgpt بالعربي مجانا بدون تسجيل

يمكنك الآن لعب Resident Evil الأصلية على جهاز الكمبيوتر بكل مجدها القديم

رائج الآن