في الأسبوع الماضي ، أصدرت Openai نماذج التفكير O3 و O4-Mini الجديدة ، والتي تؤدي أداءً أفضل بكثير من أسلاف O1 و O3-Mini ولها قدرات جديدة مثل “التفكير مع الصور” والجمع بين أدوات الذكاء الاصطناعي لنتائج أكثر تعقيدًا.
ومع ذلك ، وفقًا للاختبارات الداخلية لـ Openai ، فإن نماذج التفكير O3 و O4-MINI الجديدة هذه هي أيضًا جنسًا أكثر بكثير من نماذج الذكاء الاصطناعى السابقة ، وفقًا لتقارير TechCrunch. هذا غير عادي لأن النماذج الأحدث تميل إلى الهلوسة أقل مع تحسن تقنية الذكاء الاصطناعي.
في عالم LLMs و AIS المنطق ، يحدث “هلوسة” عندما يشكل النموذج معلومات تبدو مقنعة ولكن ليس لها تأثير في الحقيقة. بمعنى آخر ، عندما تطرح أسئلة على ChatGpt ، قد يستجيب بإجابة خاطئة أو غير صحيحة بشكل واضح.
إن الشخصيات القياسية في Openai-التي تستخدم لقياس الدقة الواقعية لنماذج الذكاء الاصطناعى الخاصة بها عند الحديث عن أشخاص-تصل إلى أن O3 هلوس في 33 في المائة من الاستجابات بينما كان O4-Mini أسوأ بنسبة 48 في المائة. وبالمقارنة ، فإن نماذج O1 و O3-MINI الأقدم هي هلوس 16 في المائة و 14.8 في المائة على التوالي.
اعتبارًا من الآن ، يقول Openai إنهم لا يعرفون لماذا زادت الهلوسة في نماذج التفكير الأحدث. قد تكون الهلوسة على ما يرام بالنسبة للمساعي الإبداعية ، لكنها تقوض مصداقية مساعدي الذكاء الاصطناعى مثل chatgpt عند استخدامها للمهام التي تكون الدقة ذات أهمية قصوى. في بيان لـ TechCrunch ، قال مندوب Openai إن الشركة “تعمل باستمرار على تحسين (نماذجها) دقة وموثوقية”.
ظهرت هذه المقالة في الأصل على منشور شقيقنا PC För Alla وتم ترجمته وتوطينه من السويدية.