قدمت Tencent معيارًا جديدًا ، ArtifactSbench ، يهدف إلى إصلاح المشكلات الحالية في اختبار نماذج الذكاء الاصطناعي الإبداعي.
من أي وقت مضى طلب من الذكاء الاصطناعى بناء شيء مثل صفحة ويب بسيطة أو مخطط وتلقى شيء يعمل ولكن لديه تجربة مستخدم سيئة؟ قد تكون الأزرار في المكان الخطأ ، أو قد تصطدم الألوان ، أو أن الرسوم المتحركة تشعر بالحيوية. إنها مشكلة شائعة ، وتسلط الضوء على تحد كبير في عالم تطوير الذكاء الاصطناعي: كيف تقوم بتدريس آلة لتذوق جيد؟
لفترة طويلة ، كنا نختبر نماذج الذكاء الاصطناعى على قدرتها على كتابة التعليمات البرمجية الصحيح وظيفيًا. يمكن أن تؤكد هذه الاختبارات أن الكود الذي سيتم تشغيله ، لكنهم كانوا “أعمى تمامًا عن الإخلاص المرئي والنزاهة التفاعلية التي تحدد تجارب المستخدم الحديثة”.
هذه هي المشكلة الدقيقة التي تم تصميم ArtifactsBench لحلها. إنه أقل من اختبار وأكثر من ناقد الفن الآلي للرمز الذي تم إنشاؤه من الذكاء الاصطناعى
الحصول عليها بشكل صحيح ، مثل الإنسان كان يجب
لذا ، كيف يعمل معايير منظمة العفو الدولية من Tencent؟ أولاً ، يتم منح الذكاء الاصطناعى مهمة إبداعية من كتالوج يزيد عن 1800 تحدي ، من بناء تصور البيانات وتطبيقات الويب إلى صنع ألعاب مصغرة تفاعلية.
بمجرد إنشاء الذكاء الاصطناعي ، يعمل ArtifactsBench. يقوم تلقائيًا بإنشاء الكود ويديره في بيئة آمنة ورملية.
لمعرفة كيفية تصرف التطبيق ، يلتقط سلسلة من لقطات الشاشة مع مرور الوقت. يتيح ذلك التحقق من أشياء مثل الرسوم المتحركة ، وتغيير الحالة بعد النقر على الزر ، وردود فعل المستخدمين الديناميكية الأخرى.
أخيرًا ، يقوم بتسليم كل هذه الأدلة – الطلب الأصلي ، ورمز الذكاء الاصطناعى ، ولقطات الشاشة – إلى LLM متعدد الوسائط (MLLM) ، للعمل كقاضي.
لا يعطي قاضي MLLM هذا الرأي الغامض ويستخدم بدلاً من ذلك قائمة مراجعة مفصلة لكل المهمة لتسجيل النتيجة عبر عشرة مقاييس مختلفة. يتضمن التسجيل الوظائف ، وتجربة المستخدم ، وحتى الجودة الجمالية. هذا يضمن أن التسجيل عادل ومتسق وشامل.
السؤال الكبير هو ، هل يتمتع هذا القاضي الآلي في الواقع بذوق جيد؟ النتائج تشير إلى أنها تفعل.
عندما تمت مقارنة التصنيفات من ArtifactSbench مع WebDev Arena ، المنصة القياسية الذهبية حيث يصوت البشر الحقيقيون على أفضل إبداعات الذكاء الاصطناعي ، فإنها تتوافق مع تناسق 94.4 ٪. هذه قفزة هائلة من المعايير الآلية القديمة ، والتي تمكنت فقط من الاتساق حوالي 69.4 ٪.
علاوة على ذلك ، أظهرت أحكام الإطار أكثر من 90 ٪ اتفاق مع المطورين البشريين المحترفين.
يقوم Tencent بتقييم إبداع نماذج العليا من الذكاء الاصطناعي مع معيارها الجديد
عندما وضع تينسنت أكثر من 30 من أفضل طرازات الذكاء الاصطناعي في العالم من خلال خطواتها ، كانت اللوحة المتصدرين تكشف. في حين أن النماذج التجارية العليا من Google (Gemini-2.5-Pro) والأنثروبور (Claude 4.0-Sonnet) تولى زمام المبادرة ، اكتشفت الاختبارات رؤية رائعة.
قد تعتقد أن منظمة العفو الدولية متخصصة في كود الكتابة ستكون الأفضل في هذه المهام. لكن العكس كان صحيحا. وجد البحث أن “القدرات الشاملة للنماذج العامة غالباً ما تتفوق على تلك الخاصة بالألوان المتخصصة.”
يتغلب النموذج للأغراض العامة ، Qwen-2.5-instruct ، على أشقائه الأكثر تخصصًا ، و QWEN-2.5-COMER (نموذج خاص بالدولة) و QWEN2.5-VL (نموذج متخصص في الرؤية).
يعتقد الباحثون أن هذا يرجع إلى أن إنشاء تطبيق بصري رائع لا يتعلق فقط بالترميز أو الفهم البصري في عزلة ويتطلب مزيجًا من المهارات.
“التفكير القوي ، والتعليمات الدقيقة التالية ، والشعور الضمني لتصميم جماليات التصميم” ، يبرز الباحثون على سبيل المثال المهارات الحيوية. هذه هي أنواع القدرات التي تشبه الإنسان تقريبًا والتي تشبه الإنسان تقريبًا والتي بدأت أفضل النماذج العامة في التطور.
تأمل Tencent أن يتمكن معيار ArtifactSbench من تقييم هذه الصفات بشكل موثوق وبالتالي قياس التقدم المستقبلي في قدرة الذكاء الاصطناعي على إنشاء أشياء ليست وظيفية فحسب ، بل ما يريد المستخدمون استخدامه بالفعل.
انظر أيضا: Tencent Hunyuan3d-polygen: نموذج للأصول ثلاثية الأبعاد “للفن”
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.