من الأنثروبولوجيا إلى جوجل: من الفائز في مواجهة هلوسات الذكاء الاصطناعي؟

أصدرت شركة جاليليو، المطور الرائد للذكاء الاصطناعي التوليدي لتطبيقات المؤسسات، أحدث مؤشر للهلوسة.

قام إطار التقييم – الذي يركز على الجيل المعزز بالاسترجاع (RAG) – بتقييم 22 برنامج ماجستير بارز في مجال الذكاء الاصطناعي من كبار اللاعبين بما في ذلك OpenAI وAnthropic وGoogle وMeta. توسع مؤشر هذا العام بشكل كبير، حيث أضاف 11 نموذجًا جديدًا ليعكس النمو السريع في برامج الماجستير في القانون مفتوحة المصدر ومغلقة المصدر على مدار الأشهر الثمانية الماضية.

قال فيكرام تشاتيرجي، الرئيس التنفيذي والمؤسس المشارك لشركة جاليليو: “في ظل التطور السريع الذي يشهده عالم الذكاء الاصطناعي اليوم، يواجه المطورون والشركات تحديًا بالغ الأهمية: كيفية تسخير قوة الذكاء الاصطناعي التوليدي مع تحقيق التوازن بين التكلفة والدقة والموثوقية. غالبًا ما تستند المعايير الحالية إلى حالات الاستخدام الأكاديمية، وليس التطبيقات الواقعية”.

استخدم المؤشر مقياس التقييم الخاص بشركة جاليليو، الالتزام بالسياق، للتحقق من عدم دقة النتائج عبر أطوال إدخال مختلفة، تتراوح من 1000 إلى 100000 رمز. ويهدف هذا النهج إلى مساعدة الشركات على اتخاذ قرارات مستنيرة بشأن موازنة السعر والأداء في تطبيقات الذكاء الاصطناعي الخاصة بها.

وتتضمن النتائج الرئيسية للمؤشر ما يلي:

الأنثروبولوجيا سونيت كلود 3.5 برز كأفضل نموذج أداءً بشكل عام، حيث سجل باستمرار نتائج شبه مثالية في السيناريوهات القصيرة والمتوسطة والطويلة.
جوجل الجوزاء 1.5 فلاش تم تصنيفه كأفضل نموذج أداءً من حيث الفعالية من حيث التكلفة، حيث يقدم أداءً قويًا في جميع المهام.
تعليمات Qwen2-72B من Alibaba برزت كأفضل نموذج مفتوح المصدر، وتفوقت بشكل خاص في سيناريوهات السياق القصير والمتوسط.

وسلط المؤشر الضوء أيضًا على العديد من الاتجاهات في مشهد الماجستير في القانون:

نماذج مفتوحة المصدر تغلق هذه المنتجات الفجوة بسرعة مع نظيراتها ذات المصدر المغلق، مما يوفر أداءً محسنًا للهلوسة بتكاليف أقل.
حاضِر ماجستير في القانون من RAG إظهار تحسينات كبيرة في التعامل مع أطوال السياق الممتدة دون التضحية بالجودة أو الدقة.
نماذج أصغر في بعض الأحيان تتفوق النماذج الأكبر حجمًا على النماذج الأكبر حجمًا، مما يشير إلى أن التصميم الفعال قد يكون أكثر أهمية من الحجم.
ظهور أصحاب الأداء القوي من خارج الولايات المتحدةوتشير الشركات الناشئة، مثل Mistral-large من Mistral وqwen2-72b-instruct من Alibaba، إلى المنافسة العالمية المتزايدة في تطوير برامج الماجستير في القانون.

في حين تحافظ النماذج المغلقة المصدر مثل Claude 3.5 Sonnet وGemini 1.5 Flash على صدارتها بفضل بيانات التدريب الخاصة، يكشف المؤشر أن المشهد يتطور بسرعة. كان أداء Google ملحوظًا بشكل خاص، حيث كان أداء نموذج Gemma-7b مفتوح المصدر ضعيفًا بينما احتل نموذج Gemini 1.5 Flash مغلق المصدر باستمرار مرتبة قريبة من القمة.

مع استمرار صناعة الذكاء الاصطناعي في التعامل مع الهلوسة باعتبارها عقبة رئيسية أمام منتجات الذكاء الاصطناعي الجاهزة للإنتاج، يوفر مؤشر الهلوسة من جاليليو رؤى قيمة للمؤسسات التي تتطلع إلى اعتماد النموذج المناسب لاحتياجاتها المحددة وقيود الميزانية.

أنظر أيضا: أعضاء مجلس الشيوخ يحققون في ممارسات السلامة والتوظيف في OpenAI

هل تريد أن تتعلم المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ تعرف على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. يقام هذا الحدث الشامل بالتزامن مع فعاليات رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابة.

استكشف الأحداث والندوات عبر الإنترنت الأخرى المتعلقة بتكنولوجيا المؤسسات والتي تدعمها TechForge هنا.

تم نشر المنشور Anthropic to Google: Who’s Winner against AI hallucinations? لأول مرة على أخبار الذكاء الاصطناعي.

مقالات قد تهمك

تم حل مشكلات ملفات PDF: برنامج SwifDoo PDF Pro متاح الآن بسعر 30 دولارًا.

مصباح “فارمبليكست” الذكي من “ايكيا” يسدّ حاجةً في تصميم الإضاءة.

أوبو تطلق هاتفًا قابلاً للطي (Foldable Phone) يُعجب بتصميمه، لكن سعره يمنع اقتناءه.

يواجه كلود تقطير نموذج الذكاء الاصطناعي “على المستوى الصناعي”.

نوكيا وأمازون ويب سيرفيسز تجربان أتمتة الذكاء الاصطناعي لتقطيع شبكات الجيل الخامس (5G).

استكشاف الذكاء الاصطناعي في قطاع البيع بالتجزئة بآسيا والمحيط الهادئ.

كيف تدمج المؤسسات المالية الذكاء الاصطناعي في عمليات اتخاذ القرار.

يكشف (Murder Mystery 2) عن سلوك ناشئ للاعبين عبر الإنترنت.

يستهدف نموذج تنبؤ بالذكاء الاصطناعي تحسين كفاءة موارد الرعاية الصحية.

يقود الذكاء الاصطناعي التوكيلي (Agentic AI) العائد على الاستثمار المالي في أتمتة الحسابات الدائنة.

قراصنة مدعومون من دول يستغلون الذكاء الاصطناعي في هجمات سيبرانية: جوجل.

كيف يفصل المنطق والبحث عن تعزيز قابلية التوسع لعامل الذكاء الاصطناعي.

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

يحصل iPhone على أول تطبيق إباحي أصلي له

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

استخدم chatgpt بالعربي مجانا بدون تسجيل

فايرفوكس يعلن الحرب على التتبّع.. ميزة جديدة تقلّل البصمة الرقمية بنسبة قدرها 70%

رائج الآن