لقد استنسخ AI الذي يربط المستودع الشاسع للإنترنت لمقالات المجلات خطأً في طريقه إلى عشرات الأوراق البحثية – وقد وجد فريق من الباحثين الآن مصدر القضية.
إنه السؤال على طرف ألسنة الجميع: ما هو الجحيم “المجهر الإلكتروني الخضري”؟ كما اتضح ، المصطلح غير منطقي.
يبدو ذلك تقنيًا – ربما يكون موثوقًا به – لكنه هراء كامل. ومع ذلك ، فإنه يظهر في الأوراق العلمية ، وردود الذكاء الاصطناعى ، وحتى المجلات التي استعرضها النظراء. إذن … كيف أصبحت عبارة الوهمية هذه جزءًا من معرفتنا الجماعية؟
كما ذكرت بشق الأنفس من خلال مراقبة التراجع في فبراير ، قد يكون المصطلح قد تم سحبه من أعمدة متوازية من النص في ورقة عام 1959 على جدران الخلايا البكتيرية. ويبدو أن الذكاء الاصطناعى قد قفزت الأعمدة ، وقراءة سطرين غير مرتبطين من النص كجملة واحدة متجاورة ، وفقًا لمحقق واحد.
نص Farkakte هو حالة كتاب مدرسي لما يسميه الباحثون أحفوريًا رقميًا: خطأ يتم الحفاظ عليه في طبقات بيانات تدريب الذكاء الاصطناعى وتظهر بشكل غير متوقع في المخرجات المستقبلية. من المستحيل تقريبًا إزالة الحفريات الرقمية من مستودعات معارفنا “، وفقًا لفريق من الباحثين من الذكاء الاصطناعى الذين تتبعوا الحالة الغريبة المتمثلة في” المجهر الإلكترون الخضري “، كما هو موضح في المحادثة.
بدأت عملية الحفريات بخطأ بسيط ، كما ذكر الفريق. مرة أخرى في الخمسينيات من القرن الماضي ، تم نشر ورقتين في المراجعات البكتريولوجية التي تم مسحها في وقت لاحق ورقمنة.
إن تخطيط الأعمدة كما ظهرت في تلك المقالات أربكت برنامج الرقمنة ، الذي قام بتجميع كلمة “نباتي” من عمود مع “إلكترون” من آخر. إن الانصهار عبارة عن ما يسمى “العبارة المعذبة”-وهي مخفية للعين المجردة ، ولكنها تظهر على نماذج البرمجيات واللغة التي “تقرأ” النص.
كما تم تأريخها من خلال مراقبة التراجع ، بعد ما يقرب من 70 عامًا من نشر أوراق البيولوجيا ، بدأت “المجهر الإلكترون النباتي” في الظهور في أوراق البحث خارج إيران.
هناك ، ربما ساعد خلل الترجمة الفارسي في إعادة عرض المصطلح: تختلف الكلمات الخاصة بـ “نباتي” و “مسح” من خلال النقطة الفارسية – ومسح الفحص المجهري الإلكتروني أمر حقيقي للغاية. قد يكون هذا كل ما يتطلبه الأمر حتى تنزلق المصطلحات الخاطئة إلى السجل العلمي.
ولكن حتى لو بدأ الخطأ بترجمة إنسانية ، فقد نسخها منظمة العفو الدولية عبر الويب ، وفقًا للفريق الذي وصف نتائجهم في المحادثة. دفع الباحثون نماذج الذكاء الاصطناعى مع مقتطفات من الأوراق الأصلية ، وبالفعل ، فإن نماذج الذكاء الاصطناعى قد أكملت بشكل موثوق العبارات مع مصطلح BS ، بدلاً من تلك الصالحة علميًا. لم تنتج النماذج القديمة ، مثل GPT-2 و Bert من Openai ، الخطأ ، مما يمنح الباحثين مؤشراً على حدوث تلوث بيانات تدريب النماذج.
وكتبت المجموعة في منشورها: “لقد وجدنا أيضًا أن الخطأ لا يزال مستمراً في نماذج لاحقة بما في ذلك GPT-4O و Claude 3.5 ،” كتبت المجموعة في منشورها. “هذا يشير إلى أن المصطلح الهراء قد يكون مضمنًا بشكل دائم في قواعد المعرفة منظمة العفو الدولية.”
حددت المجموعة مجموعة بيانات CommonCrawl – مستودع ضخم لصفحات الإنترنت المكثفة – كمصدر محتمل للمصطلح المؤسف الذي تم اختياره في نهاية المطاف من قبل نماذج الذكاء الاصطناعى. ولكن صعبة كما كان للعثور على مصدر الأخطاء ، فإن القضاء عليها أكثر صعوبة. يتكون CommonCrawl من بيتابايت من البيانات ، مما يجعل من الصعب على الباحثين خارج أكبر شركات التكنولوجيا معالجة القضايا على نطاق واسع. هذا إلى جانب حقيقة أن قيادة شركات الذكاء الاصطناعى تقاوم مشهورة بمشاركة بيانات التدريب الخاصة بهم.
لكن شركات الذكاء الاصطناعى ليست سوى جزء من المشكلة-الناشرين المتعطشين للمرض هم وحش آخر. وفقًا لما ذكرته Wretraction Watch ، حاول عملاق النشر Elsevier تبرير حساسية “المجهر الإلكتروني الخضري” قبل إصدار تصحيح في النهاية.
كان لـ The Journal Frontiers كارثة خاصة بها في العام الماضي ، عندما أجبرت على التراجع عن مقال تضمن صورًا لا معنى لها من الذكاء الاصطناعي للأعضاء التناسلية الفئران والمسارات البيولوجية. في وقت سابق من هذا العام ، أبرز فريق من الباحثين في مراجعة المعلومات الخاطئة لمدرسة هارفارد كينيدي القضية المتقدمة لما يسمى “العلوم غير المرغوب فيها” على الباحث العلمي من Google ، وهو صيد أساسي غير علمي يتم صيده بواسطة المحرك.
لدى الذكاء الاصطناعى حالات استخدام حقيقية عبر العلوم ، لكن نشرها غير العملي على نطاق واسع يعاني من مخاطر المعلومات الخاطئة ، سواء للباحثين أو للجمهور المائل علميًا. بمجرد أن تصبح الآثار الخاطئة من الرقمنة مضمونة في السجل الأحفوري على الإنترنت ، تشير الأبحاث الحديثة إلى أنه من الصعب للغاية التخلص من الرتق.