وجدت جوجل أن دقة روبوتات الدردشة بالذكاء الاصطناعي تصل إلى 69% في أفضل الحالات.

نشرت شركة جوجل مؤخرًا تقييمًا لمدى موثوقية روبوتات الدردشة بالذكاء الاصطناعي، وكشفت النتائج عن ضعف ملحوظ في دقة هذه النماذج. وأظهرت مجموعة الاختبارات FACTS Benchmark Suite أن أفضل الأنظمة الحالية لا تتجاوز نسبة دقة 70% في تقديم معلومات واقعية. هذا النقص في الموثوقية يثير تساؤلات حول الاعتماد على هذه التقنيات في المجالات الحساسة مثل التمويل والرعاية الصحية.

أجرت جوجل هذه الاختبارات استجابةً للنمو السريع في استخدام نماذج اللغة الكبيرة (LLMs) والاهتمام المتزايد بقدرتها على معالجة المعلومات وتقديمها. يهدف هذا التقييم إلى تسليط الضوء على التحديات المستمرة في ضمان دقة وموثوقية هذه الأنظمة، خاصةً مع الاعتماد المتزايد عليها في اتخاذ القرارات بناءً على المعلومات المقدمة.

ما الذي كشفه اختبار دقة جوجل حول روبوتات الدردشة؟

اعتمدت جوجل في تقييمها على مجموعة اختبارات FACTS Benchmark Suite، وهي أداة جديدة مصممة لقياس الدقة الواقعية لـنماذج الذكاء الاصطناعي عبر سيناريوهات واقعية مختلفة. تركز مجموعة الاختبارات على أربعة مجالات رئيسية: المعرفة القائمة على الحقائق، وأداء البحث، والتأريض (الالتزام بالمصادر المقدمة)، وفهم الوسائط المتعددة.

تقييم أداء النماذج الرائدة

وفقًا لنتائج الاختبارات، حقق نموذج Gemini 3 Pro أفضل أداء نسبيًا بدقة إجمالية بلغت 69%. بينما سجل نموذجا Gemini 2.5 Pro و ChatGPT-5 (من OpenAI) حوالي 62%. أما نظام Claude 4.5 Opus فقد حصل على 51% تقريبًا، في حين حدد Grok 4 دقته بنسبة 54%.

التحديات في فهم الوسائط المتعددة

أظهرت الاختبارات أن فهم الوسائط المتعددة يمثل نقطة ضعف رئيسية لمعظم روبوتات الدردشة. غالبًا ما كانت دقة هذه النماذج في قراءة المخططات والرسوم البيانية والصور أقل من 50%. هذا يثير قلقًا بالغًا لأن الأخطاء في تفسير البيانات المرئية يمكن أن تكون لها عواقب وخيمة في العديد من التطبيقات العملية.

أهمية التأريض وتجنب الهلوسة

يُعد التأريض، أو قدرة النموذج على الالتزام بالمستندات المقدمة دون إضافة معلومات غير صحيحة (ما يُعرف بـ “الهلوسة”)، جانبًا حاسمًا آخر لتقييم الموثوقية. أشارت النتائج إلى أن النماذج لا تزال تواجه صعوبة في هذا المجال، مما قد يؤدي إلى تقديم معلومات مضللة أو غير دقيقة.

بالإضافة إلى ذلك، تظهر النتائج أن أداء البحث لا يضمن تلقائيًا الدقة. قد تتمكن النماذج من استرداد المعلومات من الويب، لكن قدرتها على التحقق من صحتها وتفسيرها بشكل صحيح لا تزال محدودة. وهذا يسلط الضوء على الحاجة إلى تطوير آليات أكثر فعالية للتحقق من الحقائق وتقييم المصادر.

لا تعني هذه النتائج أن الذكاء الاصطناعي التوليدي غير فعال، بل تؤكد على أهمية عدم الثقة به بشكل أعمى. يجب دائمًا التحقق من المعلومات التي تقدمها هذه النماذج، خاصةً في المجالات التي تتطلب دقة عالية. ويشير خبراء إلى أن دقة نتائج الذكاء الاصطناعي تتزايد بشكل مستمر، ولكنها لا تزال بحاجة إلى الرقابة البشرية.

تعتبر هذه التقييمات جزءًا من جهود متسارعة لتطوير معايير موحدة لتقييم أداء نماذج الذكاء الاصطناعي، بما في ذلك جوانب مثل الأمان والتحيز والموثوقية. وتشمل الجهود الأخرى تطوير أدوات وتقنيات جديدة لتحسين دقة هذه النماذج وتقليل أخطائها.

من المتوقع أن تستمر جوجل في إجراء تقييمات دورية لـنماذج الذكاء الاصطناعي المختلفة، وأن تقوم بتحديث مجموعة FACTS Benchmark Suite بانتظام لتعكس التطورات في هذا المجال. من المرجح أيضًا أن نشهد زيادة في تبني الشركات والمؤسسات لآليات التحقق من الحقائق والإشراف البشري لضمان استخدام هذه التقنيات بشكل مسؤول وفعال. وما زال من غير المؤكد متى ستصل هذه النماذج إلى مستوى الدقة المطلوب للاعتماد عليها بشكل كامل في اتخاذ القرارات الهامة.

مقالات قد تهمك

قراءة في تسارع أحداث مسلسل “حب ع ورق” الحلقة 28 عبر موقع برستيج

قد يصبح تحديث برنامج سيارتك التالي أكبر خطر أمني

GoDukkan تصبح الوجهة الأولى لمكونات الكمبيوتر الشخصي المتميزة وترقياته في منطقة الخليج

أُطلق نموذج DeepSeek V4، ويُظهر تفوقًا على نماذج Gemini وChatGPT وClaude.

لماذا ترتفع أسعار ذاكرة الوصول العشوائي (RAM) في 2026 وماذا يفعل مشترو أجهزة الكمبيوتر؟

إيلون ماسك يعترف باستخدام نماذج OpenAI لتطوير Grok

OpenAI تطوّر هاتفًا ذكيًا مدعومًا بالذكاء الاصطناعي

تكشف إنتل عن معالجي Core Ultra 200S Plus كأسرع معالجات ألعاب سطح المكتب.

من المتوقع ارتفاع أسعار أجهزة الكمبيوتر المحمولة مع استعداد شركات مثل ASUS وHP لزيادة الأسعار.

الحاسوب الشخصي للارتباك: ماهيته، إمكانياته، وتكلفته.

يحتاج نظام ويندوز بشدة إلى جهاز MacBook Neo خاص به، لكن تصنيعه يبدو مستحيلاً.

جوجل تكشف عن الإصدار التجريبي الأخير لنظام أندرويد 17 تمهيدًا لإطلاق قريب

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

يحصل iPhone على أول تطبيق إباحي أصلي له

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

يحصل iPhone على أول تطبيق إباحي أصلي له

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

رائج الآن

يحصل iPhone على أول تطبيق إباحي أصلي له

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

اختيارات المحرر

قراءة في تسارع أحداث مسلسل “حب ع ورق” الحلقة 28 عبر موقع برستيج

قد يصبح تحديث برنامج سيارتك التالي أكبر خطر أمني

GoDukkan تصبح الوجهة الأولى لمكونات الكمبيوتر الشخصي المتميزة وترقياته في منطقة الخليج

خدمة الإشعارات البريدية

مقالات قد تهمك

وجدت جوجل أن دقة روبوتات الدردشة بالذكاء الاصطناعي تصل إلى 69% في أفضل الحالات.

ما الذي كشفه اختبار دقة جوجل حول روبوتات الدردشة؟

تقييم أداء النماذج الرائدة

التحديات في فهم الوسائط المتعددة

أهمية التأريض وتجنب الهلوسة

المقالات ذات الصلة

خدمة الإشعارات البريدية