يؤدي البحث العلمي الناتج عن الذكاء الاصطناعي إلى تلويث النظام البيئي للمعلومات الأكاديمية عبر الإنترنت، وفقًا لتقرير مثير للقلق نُشر في مجلة كلية كينيدي بجامعة هارفارد. مراجعة المعلومات الخاطئة.
قام فريق من الباحثين بالتحقيق في مدى انتشار المقالات البحثية مع وجود أدلة على النصوص المصطنعة على Google Scholar، وهو محرك بحث أكاديمي يجعل من السهل البحث عن الأبحاث المنشورة تاريخياً في مجموعة كبيرة من المجلات الأكاديمية.
قام الفريق على وجه التحديد بالتحقيق في سوء استخدام المحولات التوليدية المدربة مسبقًا (أو GPTs)، وهو نوع من نماذج اللغات الكبيرة (LLM) التي تتضمن برامج مألوفة الآن مثل ChatGPT من OpenAI. هذه النماذج قادرة على تفسير مدخلات النص بسرعة وتوليد الاستجابات بسرعة، في شكل أشكال وصور وأسطر طويلة من النص.
وفي البحث، قام الفريق بتحليل عينة من الأوراق العلمية الموجودة على Google Scholar مع وجود علامات على استخدام GPT. تحتوي الأوراق المختارة على عبارة أو اثنتين من العبارات الشائعة التي يستخدمها وكلاء المحادثة (عادةً، chatbots) المدعومة من قبل LLMs. ثم قام الباحثون بالتحقيق في مدى توزيع تلك الأوراق المشكوك فيها واستضافتها عبر الإنترنت.
وقال بيورن إكستروم، الباحث في المدرسة السويدية لعلوم المكتبات والمعلومات، والمؤلف المشارك في الدراسة: “إن خطر ما نسميه “قرصنة الأدلة” يزداد بشكل كبير عندما تنتشر الأبحاث التي ينشئها الذكاء الاصطناعي في محركات البحث”. إصدار جامعة بوراس. “قد يكون لهذا عواقب ملموسة لأن النتائج غير الصحيحة يمكن أن تتسرب إلى المجتمع وربما أيضًا إلى المزيد والمزيد من المجالات.”
إن الطريقة التي يسحب بها الباحث العلمي من Google الأبحاث من جميع أنحاء الإنترنت، وفقًا للفريق الأخير، لا تستبعد الأوراق البحثية التي يفتقر مؤلفوها إلى الانتماء العلمي أو مراجعة النظراء؛ سيقوم المحرك بسحب المصيد الأكاديمي الثانوي – أوراق الطلاب والتقارير والمطبوعات الأولية والمزيد – جنبًا إلى جنب مع البحث الذي اجتاز مستوى أعلى من التدقيق.
ووجد الفريق أن ثلثي الأوراق التي درسوها تم إنتاجها جزئيًا على الأقل من خلال استخدام غير معلن لـ GPTs. من بين الأوراق الملفقة بتقنية GPT، وجد الباحثون أن 14.5% تتعلق بالصحة، و19.5% تتعلق بالبيئة، و23% تتعلق بالحوسبة.
وكتب الفريق: “تم العثور على معظم هذه الأوراق البحثية الملفقة باستخدام GPT في المجلات وأوراق العمل غير المفهرسة، ولكن بعض الحالات تضمنت أبحاثًا منشورة في المجلات العلمية الرئيسية ووقائع المؤتمرات”.
وحدد الباحثون اثنين من المخاطر الرئيسية الناجمة عن هذا التطور. وكتبت المجموعة: “أولاً، إن وفرة “الدراسات” الملفقة التي تتسرب إلى جميع مجالات البنية التحتية البحثية تهدد بإرباك نظام الاتصالات العلمية وتعريض سلامة السجل العلمي للخطر”. “يكمن الخطر الثاني في الاحتمال المتزايد بأن المحتوى ذي المظهر العلمي المقنع قد تم إنشاؤه في الواقع بشكل مخادع باستخدام أدوات الذكاء الاصطناعي، كما تم تحسينه أيضًا ليتم استرجاعه بواسطة محركات البحث الأكاديمية المتاحة للجمهور، وخاصة الباحث العلمي من Google.”
نظرًا لأن Google Scholar ليس قاعدة بيانات أكاديمية، فمن السهل على الجمهور استخدامه عند البحث عن المؤلفات العلمية. هذا جيد. ولسوء الحظ، فإنه من الصعب على أفراد الجمهور فصل القمح عن القشر عندما يتعلق الأمر بالمجلات ذات السمعة الطيبة؛ حتى الفرق بين جزء من البحث الذي راجعه النظراء وورقة العمل يمكن أن يكون مربكًا. علاوة على ذلك، تم العثور على النص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي في بعض الأعمال التي خضعت لمراجعة النظراء وكذلك في تلك المقالات الأقل تدقيقًا، مما يشير إلى أن العمل المُلفق باستخدام GPT يعكر المياه في جميع أنحاء نظام المعلومات الأكاديمية عبر الإنترنت – وليس فقط في العمل الذي تم إنشاؤه بواسطة الذكاء الاصطناعي. موجود خارج معظم القنوات الرسمية.
وقالت جوتا هايدر، المؤلفة المشاركة في الدراسة، وهي أيضًا باحثة في المدرسة السويدية لعلوم المكتبات والمعلومات، في نفس الإصدار: “إذا لم نتمكن من الوثوق في أن البحث الذي قرأناه حقيقي، فإننا نخاطر باتخاذ قرارات بناءً على معلومات غير صحيحة”. “ولكن بقدر ما تكون هذه مسألة سوء سلوك علمي، فهي مسألة تتعلق بالتثقيف الإعلامي والمعلوماتي.”
في السنوات الأخيرة، فشل الناشرون في فحص عدد قليل من المقالات العلمية التي كانت في الواقع مجرد هراء. في عام 2021، اضطرت شركة Springer Nature إلى سحب أكثر من 40 ورقة بحثية في المجلة العربية لعلوم الأرضوالتي على الرغم من عنوان المجلة ناقشت موضوعات متنوعة منها الرياضة وتلوث الهواء وطب الأطفال. إلى جانب كونها خارجة عن الموضوع، كانت المقالات مكتوبة بشكل سيئ – إلى درجة أنها لا معنى لها – وكانت الجمل تفتقر في كثير من الأحيان إلى خط تفكير مقنع.
الذكاء الاصطناعي يؤدي إلى تفاقم المشكلة. في فبراير الماضي، تعرضت دار النشر فرونتيرز لانتقادات شديدة لنشرها بحثًا في مجلتها خلية و علم الأحياء التنموي والتي تضمنت الصور التي تم إنشاؤها بواسطة برنامج الذكاء الاصطناعي Midjourney؛ خاصة، جداً صور غير صحيحة من الناحية التشريحية لمسارات الإشارة والأعضاء التناسلية للفئران. سحبت مجلة فرونتيرز الورقة بعد عدة أيام من نشرها.
يمكن أن تكون نماذج الذكاء الاصطناعي بمثابة نعمة للعلم؛ يمكن للأنظمة فك رموز النصوص الهشة من الإمبراطورية الرومانية، والعثور على خطوط نازكا غير المعروفة سابقًا، والكشف عن التفاصيل المخفية في حفريات الديناصورات. لكن تأثير الذكاء الاصطناعي يمكن أن يكون إيجابيا أو سلبيا مثل الإنسان الذي يستخدمه.
تحتاج المجلات التي يراجعها النظراء – وربما المضيفون ومحركات البحث للكتابة الأكاديمية – إلى حواجز حماية لضمان أن التكنولوجيا تعمل في خدمة الاكتشافات العلمية، وليس في معارضتها.