أصدرت شركة جاليليو، المطور الرائد للذكاء الاصطناعي التوليدي لتطبيقات المؤسسات، أحدث مؤشر للهلوسة.
قام إطار التقييم – الذي يركز على الجيل المعزز بالاسترجاع (RAG) – بتقييم 22 برنامج ماجستير بارز في مجال الذكاء الاصطناعي من كبار اللاعبين بما في ذلك OpenAI وAnthropic وGoogle وMeta. توسع مؤشر هذا العام بشكل كبير، حيث أضاف 11 نموذجًا جديدًا ليعكس النمو السريع في برامج الماجستير في القانون مفتوحة المصدر ومغلقة المصدر على مدار الأشهر الثمانية الماضية.
قال فيكرام تشاتيرجي، الرئيس التنفيذي والمؤسس المشارك لشركة جاليليو: “في ظل التطور السريع الذي يشهده عالم الذكاء الاصطناعي اليوم، يواجه المطورون والشركات تحديًا بالغ الأهمية: كيفية تسخير قوة الذكاء الاصطناعي التوليدي مع تحقيق التوازن بين التكلفة والدقة والموثوقية. غالبًا ما تستند المعايير الحالية إلى حالات الاستخدام الأكاديمية، وليس التطبيقات الواقعية”.
استخدم المؤشر مقياس التقييم الخاص بشركة جاليليو، الالتزام بالسياق، للتحقق من عدم دقة النتائج عبر أطوال إدخال مختلفة، تتراوح من 1000 إلى 100000 رمز. ويهدف هذا النهج إلى مساعدة الشركات على اتخاذ قرارات مستنيرة بشأن موازنة السعر والأداء في تطبيقات الذكاء الاصطناعي الخاصة بها.
وتتضمن النتائج الرئيسية للمؤشر ما يلي:
- الأنثروبولوجيا سونيت كلود 3.5 برز كأفضل نموذج أداءً بشكل عام، حيث سجل باستمرار نتائج شبه مثالية في السيناريوهات القصيرة والمتوسطة والطويلة.
- جوجل الجوزاء 1.5 فلاش تم تصنيفه كأفضل نموذج أداءً من حيث الفعالية من حيث التكلفة، حيث يقدم أداءً قويًا في جميع المهام.
- تعليمات Qwen2-72B من Alibaba برزت كأفضل نموذج مفتوح المصدر، وتفوقت بشكل خاص في سيناريوهات السياق القصير والمتوسط.
وسلط المؤشر الضوء أيضًا على العديد من الاتجاهات في مشهد الماجستير في القانون:
- نماذج مفتوحة المصدر تغلق هذه المنتجات الفجوة بسرعة مع نظيراتها ذات المصدر المغلق، مما يوفر أداءً محسنًا للهلوسة بتكاليف أقل.
- حاضِر ماجستير في القانون من RAG إظهار تحسينات كبيرة في التعامل مع أطوال السياق الممتدة دون التضحية بالجودة أو الدقة.
- نماذج أصغر في بعض الأحيان تتفوق النماذج الأكبر حجمًا على النماذج الأكبر حجمًا، مما يشير إلى أن التصميم الفعال قد يكون أكثر أهمية من الحجم.
- ظهور أصحاب الأداء القوي من خارج الولايات المتحدةوتشير الشركات الناشئة، مثل Mistral-large من Mistral وqwen2-72b-instruct من Alibaba، إلى المنافسة العالمية المتزايدة في تطوير برامج الماجستير في القانون.
في حين تحافظ النماذج المغلقة المصدر مثل Claude 3.5 Sonnet وGemini 1.5 Flash على صدارتها بفضل بيانات التدريب الخاصة، يكشف المؤشر أن المشهد يتطور بسرعة. كان أداء Google ملحوظًا بشكل خاص، حيث كان أداء نموذج Gemma-7b مفتوح المصدر ضعيفًا بينما احتل نموذج Gemini 1.5 Flash مغلق المصدر باستمرار مرتبة قريبة من القمة.
مع استمرار صناعة الذكاء الاصطناعي في التعامل مع الهلوسة باعتبارها عقبة رئيسية أمام منتجات الذكاء الاصطناعي الجاهزة للإنتاج، يوفر مؤشر الهلوسة من جاليليو رؤى قيمة للمؤسسات التي تتطلع إلى اعتماد النموذج المناسب لاحتياجاتها المحددة وقيود الميزانية.
أنظر أيضا: أعضاء مجلس الشيوخ يحققون في ممارسات السلامة والتوظيف في OpenAI
هل تريد أن تتعلم المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ تعرف على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. يقام هذا الحدث الشامل بالتزامن مع فعاليات رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابة.
استكشف الأحداث والندوات عبر الإنترنت الأخرى المتعلقة بتكنولوجيا المؤسسات والتي تدعمها TechForge هنا.
تم نشر المنشور Anthropic to Google: Who’s Winner against AI hallucinations? لأول مرة على أخبار الذكاء الاصطناعي.