Close Menu
تقنية نيوزتقنية نيوز

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    مقالات قد تهمك

    فرشاة أسنان Laifen الكهربائية هذه مع 3 رؤوس فرشاة مجانية تقريبًا في يوم الذروة ، حيث يعمل المخزون بالفعل

    10 يوليو, 2025

    FTC “انقر لإلغاء” قواعد الاشتراك التي ألقاها القضاة

    9 يوليو, 2025

    بلايستيشن تعلن عن منافسات PS Plus 15th Anniversary بجوائز مميزة

    9 يوليو, 2025
    فيسبوك X (Twitter) الانستغرام
    • من نحن
    • سياسة الخصوصية
    • اتصل بنا
    فيسبوك X (Twitter) الانستغرام يوتيوب
    تقنية نيوزتقنية نيوز
    • الرئيسية
    • اخر الاخبار
    • هواتف ذكية
    • كمبيوتر
    • برامج وتطبيقات
    • شركات
      • ابل
      • سامسونج
      • جوجل
      • مايكروسوفت
      • أمازون
    • المزيد
      • الذكاء الإصطناعي
      • الأمن الإلكتروني
      • ألعاب
      • منوعات تقنية
    اشترك معنا
    تقنية نيوزتقنية نيوز
    الرئيسية » يعمل Tencent على تحسين اختبار نماذج الذكاء الاصطناعي الإبداعي مع معيار جديد
    الذكاء الإصطناعي

    يعمل Tencent على تحسين اختبار نماذج الذكاء الاصطناعي الإبداعي مع معيار جديد

    فريق التحريربواسطة فريق التحرير9 يوليو, 20250 زيارةلا توجد تعليقات
    شاركها فيسبوك تويتر بينتيريست لينكدإن Tumblr رديت تيلقرام البريد الإلكتروني
    شاركها
    فيسبوك تويتر لينكدإن بينتيريست البريد الإلكتروني

    قدمت Tencent معيارًا جديدًا ، ArtifactSbench ، يهدف إلى إصلاح المشكلات الحالية في اختبار نماذج الذكاء الاصطناعي الإبداعي.

    من أي وقت مضى طلب من الذكاء الاصطناعى بناء شيء مثل صفحة ويب بسيطة أو مخطط وتلقى شيء يعمل ولكن لديه تجربة مستخدم سيئة؟ قد تكون الأزرار في المكان الخطأ ، أو قد تصطدم الألوان ، أو أن الرسوم المتحركة تشعر بالحيوية. إنها مشكلة شائعة ، وتسلط الضوء على تحد كبير في عالم تطوير الذكاء الاصطناعي: كيف تقوم بتدريس آلة لتذوق جيد؟

    لفترة طويلة ، كنا نختبر نماذج الذكاء الاصطناعى على قدرتها على كتابة التعليمات البرمجية الصحيح وظيفيًا. يمكن أن تؤكد هذه الاختبارات أن الكود الذي سيتم تشغيله ، لكنهم كانوا “أعمى تمامًا عن الإخلاص المرئي والنزاهة التفاعلية التي تحدد تجارب المستخدم الحديثة”.

    هذه هي المشكلة الدقيقة التي تم تصميم ArtifactsBench لحلها. إنه أقل من اختبار وأكثر من ناقد الفن الآلي للرمز الذي تم إنشاؤه من الذكاء الاصطناعى

    🚀thrilled لتقديم #artifactsbench! نحن نسد الفجوة المرئية التفاعلية في تقييم توليد الكود.

    يستخدم Benchmark خط أنابيب تلقائي متعدد الوسائط جديد لتقييم LLMS على 1825 مهمة متنوعة. يقوم MLLM-charge بتقييم القطع الأثرية البصرية ، وتحقيق تصنيف 94.4 ٪ … pic.twitter.com/84xclcnnys

    – Hunyuan (tencenthunyuan) 9 يوليو 2025

    الحصول عليها بشكل صحيح ، مثل الإنسان كان يجب

    لذا ، كيف يعمل معايير منظمة العفو الدولية من Tencent؟ أولاً ، يتم منح الذكاء الاصطناعى مهمة إبداعية من كتالوج يزيد عن 1800 تحدي ، من بناء تصور البيانات وتطبيقات الويب إلى صنع ألعاب مصغرة تفاعلية.

    بمجرد إنشاء الذكاء الاصطناعي ، يعمل ArtifactsBench. يقوم تلقائيًا بإنشاء الكود ويديره في بيئة آمنة ورملية.

    لمعرفة كيفية تصرف التطبيق ، يلتقط سلسلة من لقطات الشاشة مع مرور الوقت. يتيح ذلك التحقق من أشياء مثل الرسوم المتحركة ، وتغيير الحالة بعد النقر على الزر ، وردود فعل المستخدمين الديناميكية الأخرى.

    أخيرًا ، يقوم بتسليم كل هذه الأدلة – الطلب الأصلي ، ورمز الذكاء الاصطناعى ، ولقطات الشاشة – إلى LLM متعدد الوسائط (MLLM) ، للعمل كقاضي.

    لا يعطي قاضي MLLM هذا الرأي الغامض ويستخدم بدلاً من ذلك قائمة مراجعة مفصلة لكل المهمة لتسجيل النتيجة عبر عشرة مقاييس مختلفة. يتضمن التسجيل الوظائف ، وتجربة المستخدم ، وحتى الجودة الجمالية. هذا يضمن أن التسجيل عادل ومتسق وشامل.

    السؤال الكبير هو ، هل يتمتع هذا القاضي الآلي في الواقع بذوق جيد؟ النتائج تشير إلى أنها تفعل.

    عندما تمت مقارنة التصنيفات من ArtifactSbench مع WebDev Arena ، المنصة القياسية الذهبية حيث يصوت البشر الحقيقيون على أفضل إبداعات الذكاء الاصطناعي ، فإنها تتوافق مع تناسق 94.4 ٪. هذه قفزة هائلة من المعايير الآلية القديمة ، والتي تمكنت فقط من الاتساق حوالي 69.4 ٪.

    علاوة على ذلك ، أظهرت أحكام الإطار أكثر من 90 ٪ اتفاق مع المطورين البشريين المحترفين.

    يقوم Tencent بتقييم إبداع نماذج العليا من الذكاء الاصطناعي مع معيارها الجديد

    عندما وضع تينسنت أكثر من 30 من أفضل طرازات الذكاء الاصطناعي في العالم من خلال خطواتها ، كانت اللوحة المتصدرين تكشف. في حين أن النماذج التجارية العليا من Google (Gemini-2.5-Pro) والأنثروبور (Claude 4.0-Sonnet) تولى زمام المبادرة ، اكتشفت الاختبارات رؤية رائعة.

    قد تعتقد أن منظمة العفو الدولية متخصصة في كود الكتابة ستكون الأفضل في هذه المهام. لكن العكس كان صحيحا. وجد البحث أن “القدرات الشاملة للنماذج العامة غالباً ما تتفوق على تلك الخاصة بالألوان المتخصصة.”

    يتغلب النموذج للأغراض العامة ، Qwen-2.5-instruct ، على أشقائه الأكثر تخصصًا ، و QWEN-2.5-COMER (نموذج خاص بالدولة) و QWEN2.5-VL (نموذج متخصص في الرؤية).

    يعتقد الباحثون أن هذا يرجع إلى أن إنشاء تطبيق بصري رائع لا يتعلق فقط بالترميز أو الفهم البصري في عزلة ويتطلب مزيجًا من المهارات.

    “التفكير القوي ، والتعليمات الدقيقة التالية ، والشعور الضمني لتصميم جماليات التصميم” ، يبرز الباحثون على سبيل المثال المهارات الحيوية. هذه هي أنواع القدرات التي تشبه الإنسان تقريبًا والتي تشبه الإنسان تقريبًا والتي بدأت أفضل النماذج العامة في التطور.

    تأمل Tencent أن يتمكن معيار ArtifactSbench من تقييم هذه الصفات بشكل موثوق وبالتالي قياس التقدم المستقبلي في قدرة الذكاء الاصطناعي على إنشاء أشياء ليست وظيفية فحسب ، بل ما يريد المستخدمون استخدامه بالفعل.

    انظر أيضا: Tencent Hunyuan3d-polygen: نموذج للأصول ثلاثية الأبعاد “للفن”

    هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber ​​Security & Cloud.

    استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.

    شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr البريد الإلكتروني
    السابقتعطل هذا جهاز كمبيوتر ميني Ryzen 5 بدعم من ثلاثة شاشة مقابل 236 دولارًا
    التالي إذا كانت اللياقة البدنية هي الشيء الخاص بك ، فإن هذه Shokz OpenRun Pro 2 أصبحت الآن بأفضل سعر لها على الإطلاق

    المقالات ذات الصلة

    الذكاء الإصطناعي

    تفقد Apple زعيم الذكاء الاصطناعي الرئيسي في Meta

    8 يوليو, 2025
    الذكاء الإصطناعي

    نموذج للأصول ثلاثية الأبعاد “الفنية”

    7 يوليو, 2025
    الذكاء الإصطناعي

    تشكل المملكة المتحدة وسنغافورة تحالف لتوجيه الذكاء الاصطناعي في التمويل

    4 يوليو, 2025
    الذكاء الإصطناعي

    يرفض Openai الأسهم الرمزية غير المصرح بها لـ Robinhood

    3 يوليو, 2025
    الذكاء الإصطناعي

    يكتشف Cyxcel Research ثلث شركات المملكة المتحدة في خطر منظمة العفو الدولية

    3 يوليو, 2025
    الذكاء الإصطناعي

    تجد الدراسة أن الذكاء الاصطناعى يمكن أن يقطع انبعاثات الكربون العالمية

    2 يوليو, 2025
    الذكاء الإصطناعي

    كيفية استخدام الذكاء الاصطناعى الخاص للحفاظ على سلامة أسرار عملك

    2 يوليو, 2025
    الذكاء الإصطناعي

    فيضان الاهتمام بخطة Gigafactories في أوروبا

    1 يوليو, 2025
    الذكاء الإصطناعي

    هل يمكن للشبكة التعامل مع شهية الذكاء الاصطناعى المتزايدة؟

    30 يونيو, 2025
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    Demo
    اخر الاخبار

    كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

    31 يوليو, 2024934 زيارة

    سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

    4 يوليو, 2024739 زيارة

    كل ما تريد معرفته عن Reacher الموسم الثالث

    6 مايو, 2024729 زيارة

    Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

    2 أبريل, 2024677 زيارة

    4 مزايا بطاريات السيليكون الكربونية للهواتف الذكية

    7 مارس, 2024520 زيارة

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    رائج الآن
    اخر الاخبار

    تبسيط احتياجات محاسبة عملك مع Intuit QuickBooks ، الآن 64 ٪ خصم

    فريق التحرير28 أبريل, 2025
    اخر الاخبار

    يحصل iPhone على أول تطبيق إباحي أصلي له

    فريق التحرير4 فبراير, 2025
    اخر الاخبار

    كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

    فريق التحرير31 يوليو, 2024
    رائج الآن

    تبسيط احتياجات محاسبة عملك مع Intuit QuickBooks ، الآن 64 ٪ خصم

    28 أبريل, 202542 زيارة

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 202539 زيارة

    كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

    31 يوليو, 202417 زيارة
    اختيارات المحرر

    فرشاة أسنان Laifen الكهربائية هذه مع 3 رؤوس فرشاة مجانية تقريبًا في يوم الذروة ، حيث يعمل المخزون بالفعل

    10 يوليو, 2025

    FTC “انقر لإلغاء” قواعد الاشتراك التي ألقاها القضاة

    9 يوليو, 2025

    بلايستيشن تعلن عن منافسات PS Plus 15th Anniversary بجوائز مميزة

    9 يوليو, 2025

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    تقنية نيوز
    فيسبوك X (Twitter) الانستغرام يوتيوب لينكدإن تيكتوك
    • الرئيسية
    • سياسة الخصوصية
    • من نحن
    • اتصل بنا
    © 2025 تقنية نيوز. جميع حقوق النشر محفوظة.

    اكتب كلمة البحث ثم اضغط على زر Enter