Openai يحفر لماذا تكذب chatbots عن قصد وخداع البشر

في هذه المرحلة ، يعلم معظم الناس أن chatbots قادرة على الاستجابات الهلوسة ، ويشكلون مصادر ، وبصق المعلومات الخاطئة. لكن يمكن أن تكمن chatbots بطرق أكثر تشبه الإنسان ، “التخطيط” لإخفاء أهدافهم الحقيقية وخداع البشر الذين أعطواهم تعليمات. يبدو أن بحثًا جديدًا من Openai و Apollo Research قد اكتشف طرقًا لتخفيض بعض هذه الأكاذيب ، لكن حقيقة أنه يحدث على الإطلاق يجب أن يمنح المستخدمين توقفًا مؤقتًا.

في صميم القضية مع الذكاء الاصطناعي عن عمد ، يكون المستخدم “اختلالًا” – محددًا على أنه ما يحدث عندما تتبع الذكاء الاصطناعى هدفًا غير مقصود. يقدم الباحثون كمثال على ذلك ، “يمكن أن يتعلم منظمة العفو الدولية كسب المال أن تتعلم السرقة ، في حين أن الهدف المقصود هو كسب المال من الناحية القانونية وأخلاقية فقط”. إن التخطيط هو ما يحدث عندما يحاول النموذج إخفاء حقيقة أنه غير محدد ، ونظرية الباحثين أن النموذج يفعل هذا لحماية نفسه وأهدافه الخاصة. هذا يختلف بالتأكيد عن الهلوسة ، والتي تشير إليها ورقة حديثة نشرتها Openai هي نتيجة لمكافأة النماذج على التخمين أكثر من الاعتراف بعدم اليقين.

لمعالجة هذه المشكلة ، وضع الباحثون النماذج من خلال ما يسمونه تقنية تدريب مكافحة الخلاص المعروفة باسم “المحاذاة التداولية”. أوضح Openai أن هذه الطريقة ، التي تعمل مع LLMs يمكنها إنتاج آثار “سلسلة الفكرة” التي توضح كيفية عملها من خلال الاستعلامات ، وتعلم مواصفات السلامة النموذجية وتجعلها تفكر في هذه المواصفات قبل الإجابة. من المحتمل أن يكون من المفرط أن يقولوا إنهم أخبروا الآلات بعدم الكذب بشكل أساسي ، ولكن يبدو أنها نسخة أكثر تعقيدًا من ذلك.

وكانت النتائج إيجابية جدا. وفقًا للباحثين ، لاحظوا انخفاضًا 30x في “الإجراءات السرية” ، أو يحاول إخفاء سلوكيات محددة من المستخدم. عند تطبيقه على نموذج O3 Openai ، قام بتخفيض الإجراءات السرية من 13 ٪ إلى 0.4 ٪ وللأو 4-MINI ، انخفض من 8.7 ٪ إلى 0.3 ٪. (ملاحظة جانبية: اه ، يبدو أن 13 ٪ يشبه التردد العالي جدًا من الخداع من آلة من المفترض أن تتلقى الطلبات.)

في حين أن هذه الأرقام هي من الواضح أنها تحسن ، إلا أنها ليست صفرًا أيضًا. الشيء هو أن الباحثين لم يكتشفوا كيفية التوقف عن التخطيط تمامًا. وعلى الرغم من أنهم يصرون على أن التخطيط ، من حيث صلته بمعظم استخدامات نماذج الذكاء الاصطناعى ، ليس خطيرًا – فقد يؤدي إلى ، على سبيل المثال ، أن يخبرت ChatGpt للمستخدم بأنها لم تكن مهمة ، على سبيل المثال – لا يمكن أن تزيلها بشكل مستقيم من الكذب. في الواقع ، كتب الباحثون ، “طريقة فشل رئيسية لمحاولة” التدريب “هي ببساطة تعليم النموذج للتخطيط بعناية أكبر وسرية.”

فهل أصبحت المشكلة أفضل ، أو جعلت النماذج أفضل في إخفاء حقيقة أنهم يحاولون خداع الناس؟ يقول الباحثون إن المشكلة أصبحت أفضل. لن يكذبوا … أليس كذلك؟

مقالات قد تهمك

كيفية تسريع هاتف الاندوريد دون برامج؟

فليب بورد تطلق Surf.. منصة جديدة لتصفح الإنترنت بعيدًا عن الخوارزميات

بوابة صحية رقمية سورية: هل تتغلب على الازدحام وسرقة البيانات؟

مايكروسوفت تسعى إلى تطوير نماذج ذكاء اصطناعي متقدمة بحلول 2027

سوريَة والأردن: مباحثات لتطوير الخدمات البريدية ودعم التجارة الإلكترونية

عرضٌ لمدى الحياة لحزمة VPN ومدير كلمات مرور بسعر 40 دولارًا.

آبل تحتفل باليوبيل الذهبي.. 50 عامًا من النجاح في القطاع التقني

الأفلام والعروض التي تُعرض في أبريل 2026.

error code: 524

تبلغ تكلفة بيئة التطوير المتكاملة (IDE) لسطح المكتب 42.49 دولارًا أمريكيًا بدلًا من 499.99 دولارًا.

توقف عن الانتظار – قم بالترقية إلى Windows 11 Pro مقابل 13 دولارًا. توقف عن الانتظار – الترقية إلى Windows 11 Pro متاحة مقابل 13 دولارًا.

صممت سامسونج لوحات شاشات OLED جديدة لمقاومة الانعكاس والخدوش.

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

يحصل iPhone على أول تطبيق إباحي أصلي له

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

استخدم chatgpt بالعربي مجانا بدون تسجيل

كيفية تسريع هاتف الاندوريد دون برامج؟

كيفية تسريع الكمبيوتر واللاب توب.. 12 طريقة لجعل ويندوز أسرع

رائج الآن

استخدم chatgpt بالعربي مجانا بدون تسجيل

كيفية تسريع هاتف الاندوريد دون برامج؟

كيفية تسريع الكمبيوتر واللاب توب.. 12 طريقة لجعل ويندوز أسرع

اختيارات المحرر

كيفية تسريع هاتف الاندوريد دون برامج؟

فليب بورد تطلق Surf.. منصة جديدة لتصفح الإنترنت بعيدًا عن الخوارزميات

بوابة صحية رقمية سورية: هل تتغلب على الازدحام وسرقة البيانات؟

خدمة الإشعارات البريدية

مقالات قد تهمك

Openai يحفر لماذا تكذب chatbots عن قصد وخداع البشر

المقالات ذات الصلة

خدمة الإشعارات البريدية