تتغلب Samsung على قيود على المعايير الحالية لتقييم بشكل أفضل إنتاجية العالم الواقعي لنماذج الذكاء الاصطناعى في إعدادات المؤسسة. يهدف النظام الجديد ، الذي طورته شركة Samsung Research و Truebench ، إلى معالجة التباين المتزايد بين أداء الذكاء الاصطناعي النظري وفائدته الفعلية في مكان العمل.
مع تسريع الشركات في جميع أنحاء العالم تبنيها لنماذج اللغة الكبيرة (LLMs) لتحسين عملياتها ، ظهر تحدٍ: كيفية قياس فعاليتها بدقة. تركز العديد من المعايير الحالية على اختبارات المعرفة الأكاديمية أو العامة ، وغالبًا ما تقتصر على تنسيقات الأسئلة والإجابة باللغة الإنجليزية. لقد خلق ذلك فجوة تترك المؤسسات بدون طريقة موثوقة لتقييم كيفية أداء نموذج الذكاء الاصطناعي على المهام التجارية المعقدة والمتعددة اللغات والغنية بالسياق.
تم تطوير Samsung’s TrueBench ، المختصرة في معيار تقييم الاستخدام الحقيقي الجدير بالثقة ، لملء هذا الفراغ. يوفر مجموعة شاملة من المقاييس التي تقوم بتقييم LLMs استنادًا إلى السيناريوهات والمهام ذات الصلة مباشرة ببيئات الشركات في العالم الحقيقي. يعتمد المعيار على استخدام المؤسسة الداخلية الواسعة من Samsung لنماذج الذكاء الاصطناعى ، مما يضمن أن معايير التقييم ترتكز على مطالب حقيقية في مكان العمل.
يقوم الإطار بتقييم وظائف المؤسسة المشتركة مثل إنشاء المحتوى وتحليل البيانات وتلخيص المستندات الطويلة وترجمة المواد. يتم تقسيمها إلى 10 فئات مميزة و 46 فئة فرعية ، مما يوفر رؤية محببة لقدرات إنتاجية الذكاء الاصطناعي.
وقال بول (كيونغوون) ، CTO من قسم DX في Samsung Electronics ورئيس شركة Samsung Research: “تجلب Samsung Research الخبرة العميقة وسلطة تنافسية من خلال تجربة AI في العالم الحقيقي”. “نتوقع من TrueBench إنشاء معايير التقييم للإنتاجية.”
لمعالجة القيود المفروضة على المعايير القديمة ، تم بناء TrueBench على أساس 2،485 مجموعة اختبار متنوعة تمتد 12 لغة مختلفة ودعم السيناريوهات اللغوية. هذا النهج متعدد اللغات أمر بالغ الأهمية للشركات العالمية حيث تتدفق المعلومات عبر مناطق مختلفة. تعكس مواد الاختبار نفسها مجموعة متنوعة من طلبات مكان العمل ، بدءًا من تعليمات موجزة بثمانية أحرف فقط إلى التحليل المعقد للوثائق التي تتجاوز 20.000 حرف.
أدركت Samsung أنه في سياق الأعمال الحقيقية ، لا يتم دائمًا ذكر النية الكاملة للمستخدم بشكل صريح في المطالبة الأولية. لذلك تم تصميم المؤشر لتقييم قدرة نموذج الذكاء الاصطناعى على فهم وتلبية احتياجات المؤسسة الضمنية هذه ، والانتقال إلى أبعد من الدقة البسيطة إلى مقياس أكثر دقة للمساعدة والأهمية.
لتحقيق ذلك ، طورت Samsung Research عملية تعاونية فريدة بين الخبراء البشريين و AI لإنشاء معايير تسجيل الإنتاجية. في البداية ، تنشئ المذيعون البشريون معايير التقييم لمهمة معينة. ثم يستعرض الذكاء الاصطناعى هذه المعايير ، والتحقق من الأخطاء المحتملة ، أو التناقضات الداخلية ، أو القيود غير الضرورية التي قد لا تعكس توقع مستخدم واقعي. بعد ملاحظات الذكاء الاصطناعى ، يقوم المذيعون البشريون بتحسين المعايير. تضمن هذه الحلقة التكرارية أن تكون معايير التقييم النهائية دقيقة وتعكس نتيجة عالية الجودة.
توفر هذه العملية المتقاطعة نظام تقييم تلقائي يسجل أداء LLMS. باستخدام الذكاء الاصطناعي لتطبيق هذه المعايير المكررة ، يقلل النظام من التحيز الذاتي الذي يمكن أن يحدث بتسجيل الإنسان فقط ، وضمان الاتساق والموثوقية في جميع الاختبارات. يستخدم TrueBench أيضًا نموذجًا صارمًا للتسجيل حيث يجب أن يفي نموذج الذكاء الاصطناعى بكل حالة مرتبطة باختبار لتلقي علامة عابرة. يتيح هذا النهج كل شيء أو لا شيء للظروف الفردية تقييمًا أكثر تفصيلًا ودقيقًا لأداء نماذج الذكاء الاصطناعى عبر مهام المؤسسات المختلفة.
لتعزيز الشفافية وتشجيع التبني الأوسع ، جعلت Samsung عينات بيانات TrueBench وألواح المتصدرين متاحة للجمهور على منصة مفتوحة المصدر. يسمح ذلك للمطورين والباحثين والمؤسسات بمقارنة أداء الإنتاجية لما يصل إلى خمسة نماذج مختلفة من الذكاء الاصطناعي في وقت واحد. يوفر المنصة نظرة واضحة ، عند نظرة عامة على كيفية تكديس مختلف AIS ضد بعضها البعض في المهام العملية.
اعتبارًا من الكتابة ، إليك أفضل 20 طرازًا من خلال التصنيف العام على أساس معايير Samsung من الذكاء الاصطناعي:
تتضمن البيانات المنشورة الكاملة أيضًا متوسط طول الاستجابات التي تم إنشاؤها من الذكاء الاصطناعي. يسمح ذلك بإجراء مقارنة متزامنة ليس فقط للأداء ولكن أيضًا الكفاءة ، وهو أحد الاعتبارات الرئيسية للشركات التي تزن تكاليف التشغيل والسرعة.
مع إطلاق TrueBench ، فإن Samsung لا تطلق فقط أداة أخرى ولكنها تهدف إلى تغيير كيفية تفكير الصناعة في أداء الذكاء الاصطناعي. من خلال نقل أهداف الأهداف من المعرفة المجردة إلى الإنتاجية الملموسة ، يمكن أن يلعب معيار Samsung دورًا في مساعدة المنظمات على اتخاذ قرارات أفضل حول نماذج AI للمؤسسة التي تتكامل في سير العمل وسد الفجوة بين إمكانات الذكاء الاصطناعي وقيمتها المثبتة.
انظر أيضا: داخل خطة Huawei لجعل الآلاف من رقائق الذكاء الاصطناعى يفكرون ككمبيوتر واحد

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. يعد الحدث الشامل جزءًا من TechEx ويتم تحديده مع الأحداث التكنولوجية الرائدة الأخرى ، انقر هنا لمزيد من المعلومات.
AI News مدعومة من قبل Techforge Media. استكشاف أحداث وندوات الويب الأخرى القادمة هنا.