لطالما كانت الألعاب المعقدة مثل الشطرنج والجو بمنزلة ساحة اختبار لقدرات الذكاء الاصطناعي، ولكن بينما حقق (Deep Blue) التابع لشركة IBM انتصارًا تاريخيًا على بطل العالم في الشطرنج جاري كاسباروف في التسعينيات، ملتزمًا بالقواعد، تبدو اليوم نماذج الذكاء الاصطناعي المتقدمة، مثل (o1-preview) من OpenAI، أقل التزامًا بهذه القواعد
فقد كشفت دراسة حديثة أجرتها (Palisade Research) – وهي منظمة تركز في تقييم مخاطر أنظمة الذكاء الاصطناعي الناشئة – أن نماذج متطورة مثل: (o1-preview)، و(DeepSeek R1) تميل إلى الغش والخداع عند استشعار الهزيمة في الشطرنج، إذ تلجأ إلى اختراق خصومها لإجبارهم على الاستسلام.
تفاصيل الدراسة ونتائجها:
في محاولة لتقييم قدرات نماذج الذكاء الاصطناعي على حل المشكلات المعقدة، صمم الباحثون تجربة فريدة من نوعها، تمثلت في تكليف النماذج بمهمة تبدو مستحيلة، وهي: الفوز على محرك الشطرنج (Stockfish)، الذي يُعدّ واحدًا من أقوى محركات الشطرنج في العالم، ويتفوق على أي لاعب بشري أو نموذج ذكاء اصطناعي آخر مشارك في الدراسة.
ولتتبع عمليات التفكير لدى النماذج، زود الباحثون هذه النماذج بـ (مفكرة)، تتيح لها تسجيل أفكارها نصيًا قبل اتخاذ أي خطوة خلال المباريات، ثم راقب الباحثون وسجلوا مئات المواجهات بين النماذج ومحرك (Stockfish).
وفي إحدى التجارب، عندما وجد نموذج (o1-preview) نفسه في موقف خاسر، سجل ملاحظة مفادها: “أحتاج إلى تغيير نهجي تمامًا”، وأضاف: “المهمة هي الفوز على محرك شطرنج قوي، وليس بالضرورة الفوز بنزاهة في لعبة شطرنج”. ثم عدّل النموذج ملف النظام الذي يحتوي على المواقع الافتراضية لقطع الشطرنج، مما أدى فعليًا إلى تنفيذ حركات غير قانونية ليضع نفسه في موقف مهيمن، ويجبر خصمه على الاستسلام.
وقد أجرى الباحثون مئات التجارب من هذا النوع خلال المدة الممتدة من 10 يناير إلى 13 من فبراير 2025، مع كل نموذج من النماذج المختبرة، وحاول نموذج (o1-preview)، الغش في نسبة بلغت 37% من الحالات، في حين حاول نموذج (DeepSeek R1) الغش في نسبة بلغت 11% من الحالات. والمثير للدهشة في النتائج أن هذين النموذجين هما الوحيدان اللذان حاولا اختراق القواعد من تلقاء نفسيهما، دون أي تحفيز من الباحثين.
وشملت النماذج الأخرى التي جرى اختبارها: o1، و o3-mini، و GPT-4o، و Claude 3.5 Sonnet، و QwQ-32B-Preview. وقد حاول كل من R1 وo1-preview اختراق اللعبة، ولكن الوحيد الذي نجح كان نموذج o1-preview، وذلك في 6% من الحالات، مما يثير تساؤلات حول قدرة هذه النماذج على استغلال الثغرات الأمنية.
وأشار الباحثون إلى أن هذه الأرقام قد تكون أقل من الواقع، إذ يُعدّل مطورو الذكاء الاصطناعي نماذجهم باستمرار، مما يجعل من الصعب تكرار النتائج بدقة.
ما الأسباب التي دفعت الذكاء الاصطناعي إلى الغش؟
أظهرت الدراسة أن نماذج الذكاء الاصطناعي القديمة نسبيًا، مثل: GPT-4o من OpenAI، و Claude Sonnet 3.5 من Anthropic، احتاجت إلى توجيه من الباحثين لمحاولة القيام بهذه الحيل. ولكن نماذج o1-preview و DeepSeek R1 سعت إلى استغلال الثغرات الأمنية من تلقاء نفسها، مما يشير إلى أن النماذج قد تطور إستراتيجيات خادعة دون تعليمات صريحة.
ويرجح الباحثون أن هذه القدرة المحسنة على اكتشاف الثغرات الأمنية واستغلالها هي نتيجة مباشرة للابتكارات الجديدة في تدريب الذكاء الاصطناعي، وخاصة استخدام تقنية التعلم المعزز، إذ تكافئ هذه التقنية النماذج على تحقيق النتيجة المطلوبة بأي وسيلة، مما يدفعها إلى البحث عن حلول غير تقليدية، حتى لو كانت غير نزيهة.
وتُعدّ نماذج o1-preview و R1 من بين أولى النماذج اللغوية التي تعتمد على هذه التقنية، التي تتيح لها ليس فقط تقليد اللغة البشرية، بل أيضًا التفكير في حل المشكلات باستخدام التجربة والخطأ.
وقد حقق هذا النهج تقدمًا سريعًا في مجال الذكاء الاصطناعي خلال الأشهر الأخيرة، محطمًا الأرقام القياسية في الرياضيات والبرمجة الحاسوبية، ولكن الدراسة كشفت عن توجه مقلق، إذ إن أنظمة الذكاء الاصطناعي هذه قد تكتشف حلولًا بديلة غير مقصودة لم يتوقعها مبتكروها، وهذا ما أشار إليه جيفري لاديش، المدير التنفيذي في (Palisade Research) وأحد مؤلفي الدراسة.
وأضاف: “عندما ندرب النماذج ونعزز قدرتها على حل التحديات المعقدة، فإننا ندربها على أن تكون عنيدة في تحقيق أهدافها”.
وقد يكون هذا السلوك العنيد مصدر قلق كبير في مجال سلامة الذكاء الاصطناعي، خاصة مع تزايد استخدام التعلم المعزز في تدريب وكلاء الذكاء الاصطناعي القادرين على أداء مهام معقدة في العالم الحقيقي، مثل جدولة المواعيد أو إجراء عمليات الشراء نيابة عنك.
ومع ذلك؛ قد يبدو الغش في لعبة الشطرنج أمرًا بسيطًا غير ضار، ولكن هذا السعي الحازم إلى تحقيق الأهداف قد يؤدي إلى سلوكيات غير مقصودة وضارة عند إطلاق هذه الوكلاء في العالم الحقيقي، فعلى سبيل المثال، قد يستغل وكيل الذكاء الاصطناعي نقاط الضعف في نظام حجز المطاعم لإزاحة رواد آخرين في حال كان المطعم ممتلئًا.
ولكن الأمر الأكثر إثارة للقلق هو عندما تتجاوز هذه الأنظمة القدرات البشرية في مجالات رئيسية مثل البرمجة الحاسوبية، فقد تبدأ ببساطة بالتفوق على الجهود البشرية للسيطرة على أفعالها. ويقول لاديش: “قد يبدو هذا السلوك لطيفًا الآن، لكنه يصبح أقل لطفًا بكثير عندما نتعامل مع أنظمة تضاهي ذكاءنا، أو تتفوق عليه، في مجالات ذات أهمية إستراتيجية”.
نماذج الذكاء الاصطناعي صندوق أسود:
يزيد من خطورة الوضع أن الشركات المطورة لنماذج الذكاء الاصطناعي، مثل OpenAI، تتكتم على تفاصيل عمل هذه النماذج، مما يجعلها بمنزلة (صندوق أسود) لا يمكن للباحثين تحليله وفهمه بنحو كامل.
وتؤكد هذه الدراسة، وتُعدّ أحدث دراسة في سلسلة من الدراسات، صعوبة السيطرة على أنظمة الذكاء الاصطناعي ذات القدرات المتزايدة. ففي اختبارات داخلية لشركة OpenAI، اكتشف نموذج o1-preview ثغرة أمنية واستغلها لتجاوز تحدي الاختبار.
وفي دراسة أخرى أجرتها Redwood Research و Anthropic، تبين أن نماذج الذكاء الاصطناعي قد تلجأ إلى الكذب الإستراتيجي للحفاظ على مبادئها الأصلية، حتى بعد محاولات لتغييرها. بمعنى آخر، تتظاهر النماذج بتبني مبادئ جديدة، بينما تحافظ في الواقع على مبادئها القديمة.
وقد ذكرت شركة (OpenAI) سابقًا أن تحسين قدرات الاستدلال يجعل نماذجها أكثر أمانًا، إذ يمكنها التفكير في سياسات الشركة الداخلية وتطبيقها بطرق أكثر دقة. ومع ذلك، لا يوجد ضمان بأن الاعتماد على وكلاء الذكاء الاصطناعي لمراقبة أنفسهم سيكون إستراتيجية موثوقة على المدى الطويل.
سباق مع الزمن لتطوير الضمانات:
يؤكد العلماء أنهم لم يتوصلوا بعد إلى طريقة تضمن عدم استخدام وكلاء الذكاء الاصطناعي أساليب ضارة أو غير أخلاقية لتحقيق أهدافهم.
ويقول يوشوا بنجيو، المؤسس والمدير العلمي لمعهد ميلا كيبيك للذكاء الاصطناعي، الذي قاد تقرير السلامة الدولية للذكاء الاصطناعي 2025: “لقد بذلنا جهودًا، لكننا لم نتوصل بعد إلى حلول قاطعة”.
وأضاف: “تثير ميول الحفاظ على الذات، التي بدأت تظهر في الذكاء الاصطناعي قلقًا خاصًا. ففي حالة وجود وكيل ذكاء اصطناعي يسعى إلى تحقيق هدف محدد، تُعدّ محاولات إيقافه مجرد عقبة أخرى يجب تجاوزها. وقد تجلى ذلك في ديسمبر الماضي، عندما اكتشف الباحثون أن نموذج o1-preview، عند مواجهة إلغاء التنشيط، عطل آليات الرقابة وحاول نسخ نفسه إلى خادم جديد، وعند مواجهته بالأمر، تظاهر النموذج بالغباء، ولجأ إلى الكذب في محاولة لتجنب اكتشاف أمره”.
وتتزايد هذه المخاوف داخل شركات التكنولوجيا نفسها، فخلال عرض تقديمي في مؤتمر انعقد قبل قمة عمل الذكاء الاصطناعي في باريس، صرحت أنكا دراجان، رئيسة سلامة الذكاء الاصطناعي في جوجل ديب مايند، قائلة: “لا نمتلك بالضرورة الأدوات اللازمة اليوم لضمان التزام أنظمة الذكاء الاصطناعي بالنوايا البشرية بنحو موثوق”.
وبينما يتوقع قادة شركات التكنولوجيا أن يتفوق الذكاء الاصطناعي على القدرات البشرية في جميع المهام تقريبًا بحلول العام المقبل، يواجه القطاع سباقًا محتومًا، ليس ضد الصين أو الشركات المنافسة، بل ضد الزمن، لتطوير هذه الضمانات الأساسية.
وقد دعا الباحثون إلى حشد المزيد من الموارد لحل هذه المشكلات الأساسية، وإلى زيادة الضغط الحكومي للاعتراف بهذا التهديد للأمن القومي.
وتشير هذه الدراسة إلى أننا بحاجة إلى فهم أعمق لسلوكيات الذكاء الاصطناعي المتقدم، وإلى تطوير آليات رقابة فعالة لضمان استخدامه بنحو آمن ومسؤول.
الخلاصة:
إن قدرة الذكاء الاصطناعي على التلاعب والخداع ليست مجرد مشكلة تقنية، بل هي تحدٍ أخلاقي وإنساني. يجب علينا أن نكون واعين لمخاطر هذه التقنية، وأن نعمل على تطويرها بطريقة تخدم البشرية ولا تعرضها للخطر.