يعمل Tencent على تحسين اختبار نماذج الذكاء الاصطناعي الإبداعي مع معيار جديد

قدمت Tencent معيارًا جديدًا ، ArtifactSbench ، يهدف إلى إصلاح المشكلات الحالية في اختبار نماذج الذكاء الاصطناعي الإبداعي.

من أي وقت مضى طلب من الذكاء الاصطناعى بناء شيء مثل صفحة ويب بسيطة أو مخطط وتلقى شيء يعمل ولكن لديه تجربة مستخدم سيئة؟ قد تكون الأزرار في المكان الخطأ ، أو قد تصطدم الألوان ، أو أن الرسوم المتحركة تشعر بالحيوية. إنها مشكلة شائعة ، وتسلط الضوء على تحد كبير في عالم تطوير الذكاء الاصطناعي: كيف تقوم بتدريس آلة لتذوق جيد؟

لفترة طويلة ، كنا نختبر نماذج الذكاء الاصطناعى على قدرتها على كتابة التعليمات البرمجية الصحيح وظيفيًا. يمكن أن تؤكد هذه الاختبارات أن الكود الذي سيتم تشغيله ، لكنهم كانوا “أعمى تمامًا عن الإخلاص المرئي والنزاهة التفاعلية التي تحدد تجارب المستخدم الحديثة”.

هذه هي المشكلة الدقيقة التي تم تصميم ArtifactsBench لحلها. إنه أقل من اختبار وأكثر من ناقد الفن الآلي للرمز الذي تم إنشاؤه من الذكاء الاصطناعى

🚀thrilled لتقديم #artifactsbench! نحن نسد الفجوة المرئية التفاعلية في تقييم توليد الكود.

يستخدم Benchmark خط أنابيب تلقائي متعدد الوسائط جديد لتقييم LLMS على 1825 مهمة متنوعة. يقوم MLLM-charge بتقييم القطع الأثرية البصرية ، وتحقيق تصنيف 94.4 ٪ … pic.twitter.com/84xclcnnys

– Hunyuan (tencenthunyuan) 9 يوليو 2025

الحصول عليها بشكل صحيح ، مثل الإنسان كان يجب

لذا ، كيف يعمل معايير منظمة العفو الدولية من Tencent؟ أولاً ، يتم منح الذكاء الاصطناعى مهمة إبداعية من كتالوج يزيد عن 1800 تحدي ، من بناء تصور البيانات وتطبيقات الويب إلى صنع ألعاب مصغرة تفاعلية.

بمجرد إنشاء الذكاء الاصطناعي ، يعمل ArtifactsBench. يقوم تلقائيًا بإنشاء الكود ويديره في بيئة آمنة ورملية.

لمعرفة كيفية تصرف التطبيق ، يلتقط سلسلة من لقطات الشاشة مع مرور الوقت. يتيح ذلك التحقق من أشياء مثل الرسوم المتحركة ، وتغيير الحالة بعد النقر على الزر ، وردود فعل المستخدمين الديناميكية الأخرى.

أخيرًا ، يقوم بتسليم كل هذه الأدلة – الطلب الأصلي ، ورمز الذكاء الاصطناعى ، ولقطات الشاشة – إلى LLM متعدد الوسائط (MLLM) ، للعمل كقاضي.

لا يعطي قاضي MLLM هذا الرأي الغامض ويستخدم بدلاً من ذلك قائمة مراجعة مفصلة لكل المهمة لتسجيل النتيجة عبر عشرة مقاييس مختلفة. يتضمن التسجيل الوظائف ، وتجربة المستخدم ، وحتى الجودة الجمالية. هذا يضمن أن التسجيل عادل ومتسق وشامل.

السؤال الكبير هو ، هل يتمتع هذا القاضي الآلي في الواقع بذوق جيد؟ النتائج تشير إلى أنها تفعل.

عندما تمت مقارنة التصنيفات من ArtifactSbench مع WebDev Arena ، المنصة القياسية الذهبية حيث يصوت البشر الحقيقيون على أفضل إبداعات الذكاء الاصطناعي ، فإنها تتوافق مع تناسق 94.4 ٪. هذه قفزة هائلة من المعايير الآلية القديمة ، والتي تمكنت فقط من الاتساق حوالي 69.4 ٪.

علاوة على ذلك ، أظهرت أحكام الإطار أكثر من 90 ٪ اتفاق مع المطورين البشريين المحترفين.

يقوم Tencent بتقييم إبداع نماذج العليا من الذكاء الاصطناعي مع معيارها الجديد

عندما وضع تينسنت أكثر من 30 من أفضل طرازات الذكاء الاصطناعي في العالم من خلال خطواتها ، كانت اللوحة المتصدرين تكشف. في حين أن النماذج التجارية العليا من Google (Gemini-2.5-Pro) والأنثروبور (Claude 4.0-Sonnet) تولى زمام المبادرة ، اكتشفت الاختبارات رؤية رائعة.

قد تعتقد أن منظمة العفو الدولية متخصصة في كود الكتابة ستكون الأفضل في هذه المهام. لكن العكس كان صحيحا. وجد البحث أن “القدرات الشاملة للنماذج العامة غالباً ما تتفوق على تلك الخاصة بالألوان المتخصصة.”

يتغلب النموذج للأغراض العامة ، Qwen-2.5-instruct ، على أشقائه الأكثر تخصصًا ، و QWEN-2.5-COMER (نموذج خاص بالدولة) و QWEN2.5-VL (نموذج متخصص في الرؤية).

يعتقد الباحثون أن هذا يرجع إلى أن إنشاء تطبيق بصري رائع لا يتعلق فقط بالترميز أو الفهم البصري في عزلة ويتطلب مزيجًا من المهارات.

“التفكير القوي ، والتعليمات الدقيقة التالية ، والشعور الضمني لتصميم جماليات التصميم” ، يبرز الباحثون على سبيل المثال المهارات الحيوية. هذه هي أنواع القدرات التي تشبه الإنسان تقريبًا والتي تشبه الإنسان تقريبًا والتي بدأت أفضل النماذج العامة في التطور.

تأمل Tencent أن يتمكن معيار ArtifactSbench من تقييم هذه الصفات بشكل موثوق وبالتالي قياس التقدم المستقبلي في قدرة الذكاء الاصطناعي على إنشاء أشياء ليست وظيفية فحسب ، بل ما يريد المستخدمون استخدامه بالفعل.

انظر أيضا: Tencent Hunyuan3d-polygen: نموذج للأصول ثلاثية الأبعاد “للفن”

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.

استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.

مقالات قد تهمك

صفقة ذكاء اصطناعي أربكت بكين.. هل توقف الصين استحواذ ميتا على Manus؟

فاراداي فيوتشر تعلن إسدال الستار على تحقيق هيئة الأوراق المالية والبورصات الأمريكية دون أي إجراءات تنفيذية

آسوس تطرح حاسوبًا محمولًا بذاكرة وصول عشوائي 16 جيجابايت ومعالج Intel Core i7 بسعر 500 دولار.

يواجه كلود تقطير نموذج الذكاء الاصطناعي “على المستوى الصناعي”.

نوكيا وأمازون ويب سيرفيسز تجربان أتمتة الذكاء الاصطناعي لتقطيع شبكات الجيل الخامس (5G).

استكشاف الذكاء الاصطناعي في قطاع البيع بالتجزئة بآسيا والمحيط الهادئ.

كيف تدمج المؤسسات المالية الذكاء الاصطناعي في عمليات اتخاذ القرار.

يكشف (Murder Mystery 2) عن سلوك ناشئ للاعبين عبر الإنترنت.

يستهدف نموذج تنبؤ بالذكاء الاصطناعي تحسين كفاءة موارد الرعاية الصحية.

يقود الذكاء الاصطناعي التوكيلي (Agentic AI) العائد على الاستثمار المالي في أتمتة الحسابات الدائنة.

قراصنة مدعومون من دول يستغلون الذكاء الاصطناعي في هجمات سيبرانية: جوجل.

كيف يفصل المنطق والبحث عن تعزيز قابلية التوسع لعامل الذكاء الاصطناعي.

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

يحصل iPhone على أول تطبيق إباحي أصلي له

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

استخدم chatgpt بالعربي مجانا بدون تسجيل

إليك أحدث أكواد فري فاير Free Fire Codes المجانية 2025 وشرح طريقة تفعيلها

رائج الآن