Close Menu
تقنية نيوزتقنية نيوز

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    مقالات قد تهمك

    أيربودز 4 (AirPods 4) معروضة الآن بسعر 80 دولارًا لفترة محدودة.

    11 ديسمبر, 2025

    أعلنت أكسنشر و أنثروبيك شراكة لتعزيز تكامل الذكاء الاصطناعي للمؤسسات.

    11 ديسمبر, 2025

    انخفض سعر ميكروفون Blue Yeti USB إلى 84.97 دولارًا في عرض مبكر لمعدات البث.

    11 ديسمبر, 2025
    فيسبوك X (Twitter) الانستغرام
    • من نحن
    • سياسة الخصوصية
    • اتصل بنا
    فيسبوك X (Twitter) الانستغرام يوتيوب
    تقنية نيوزتقنية نيوز
    • الرئيسية
    • اخر الاخبار
    • هواتف ذكية
    • كمبيوتر
    • برامج وتطبيقات
    • شركات
      • ابل
      • سامسونج
      • جوجل
      • مايكروسوفت
      • أمازون
    • المزيد
      • الذكاء الإصطناعي
      • الأمن الإلكتروني
      • ألعاب
      • منوعات تقنية
    اشترك معنا
    تقنية نيوزتقنية نيوز
    الرئيسية » يعمل Tencent على تحسين اختبار نماذج الذكاء الاصطناعي الإبداعي مع معيار جديد
    الذكاء الإصطناعي

    يعمل Tencent على تحسين اختبار نماذج الذكاء الاصطناعي الإبداعي مع معيار جديد

    فريق التحريربواسطة فريق التحرير9 يوليو, 20251 زيارةلا توجد تعليقات
    شاركها فيسبوك تويتر بينتيريست لينكدإن Tumblr رديت تيلقرام البريد الإلكتروني
    شاركها
    فيسبوك تويتر لينكدإن بينتيريست البريد الإلكتروني

    قدمت Tencent معيارًا جديدًا ، ArtifactSbench ، يهدف إلى إصلاح المشكلات الحالية في اختبار نماذج الذكاء الاصطناعي الإبداعي.

    من أي وقت مضى طلب من الذكاء الاصطناعى بناء شيء مثل صفحة ويب بسيطة أو مخطط وتلقى شيء يعمل ولكن لديه تجربة مستخدم سيئة؟ قد تكون الأزرار في المكان الخطأ ، أو قد تصطدم الألوان ، أو أن الرسوم المتحركة تشعر بالحيوية. إنها مشكلة شائعة ، وتسلط الضوء على تحد كبير في عالم تطوير الذكاء الاصطناعي: كيف تقوم بتدريس آلة لتذوق جيد؟

    لفترة طويلة ، كنا نختبر نماذج الذكاء الاصطناعى على قدرتها على كتابة التعليمات البرمجية الصحيح وظيفيًا. يمكن أن تؤكد هذه الاختبارات أن الكود الذي سيتم تشغيله ، لكنهم كانوا “أعمى تمامًا عن الإخلاص المرئي والنزاهة التفاعلية التي تحدد تجارب المستخدم الحديثة”.

    هذه هي المشكلة الدقيقة التي تم تصميم ArtifactsBench لحلها. إنه أقل من اختبار وأكثر من ناقد الفن الآلي للرمز الذي تم إنشاؤه من الذكاء الاصطناعى

    🚀thrilled لتقديم #artifactsbench! نحن نسد الفجوة المرئية التفاعلية في تقييم توليد الكود.

    يستخدم Benchmark خط أنابيب تلقائي متعدد الوسائط جديد لتقييم LLMS على 1825 مهمة متنوعة. يقوم MLLM-charge بتقييم القطع الأثرية البصرية ، وتحقيق تصنيف 94.4 ٪ … pic.twitter.com/84xclcnnys

    – Hunyuan (tencenthunyuan) 9 يوليو 2025

    الحصول عليها بشكل صحيح ، مثل الإنسان كان يجب

    لذا ، كيف يعمل معايير منظمة العفو الدولية من Tencent؟ أولاً ، يتم منح الذكاء الاصطناعى مهمة إبداعية من كتالوج يزيد عن 1800 تحدي ، من بناء تصور البيانات وتطبيقات الويب إلى صنع ألعاب مصغرة تفاعلية.

    بمجرد إنشاء الذكاء الاصطناعي ، يعمل ArtifactsBench. يقوم تلقائيًا بإنشاء الكود ويديره في بيئة آمنة ورملية.

    لمعرفة كيفية تصرف التطبيق ، يلتقط سلسلة من لقطات الشاشة مع مرور الوقت. يتيح ذلك التحقق من أشياء مثل الرسوم المتحركة ، وتغيير الحالة بعد النقر على الزر ، وردود فعل المستخدمين الديناميكية الأخرى.

    أخيرًا ، يقوم بتسليم كل هذه الأدلة – الطلب الأصلي ، ورمز الذكاء الاصطناعى ، ولقطات الشاشة – إلى LLM متعدد الوسائط (MLLM) ، للعمل كقاضي.

    لا يعطي قاضي MLLM هذا الرأي الغامض ويستخدم بدلاً من ذلك قائمة مراجعة مفصلة لكل المهمة لتسجيل النتيجة عبر عشرة مقاييس مختلفة. يتضمن التسجيل الوظائف ، وتجربة المستخدم ، وحتى الجودة الجمالية. هذا يضمن أن التسجيل عادل ومتسق وشامل.

    السؤال الكبير هو ، هل يتمتع هذا القاضي الآلي في الواقع بذوق جيد؟ النتائج تشير إلى أنها تفعل.

    عندما تمت مقارنة التصنيفات من ArtifactSbench مع WebDev Arena ، المنصة القياسية الذهبية حيث يصوت البشر الحقيقيون على أفضل إبداعات الذكاء الاصطناعي ، فإنها تتوافق مع تناسق 94.4 ٪. هذه قفزة هائلة من المعايير الآلية القديمة ، والتي تمكنت فقط من الاتساق حوالي 69.4 ٪.

    علاوة على ذلك ، أظهرت أحكام الإطار أكثر من 90 ٪ اتفاق مع المطورين البشريين المحترفين.

    يقوم Tencent بتقييم إبداع نماذج العليا من الذكاء الاصطناعي مع معيارها الجديد

    عندما وضع تينسنت أكثر من 30 من أفضل طرازات الذكاء الاصطناعي في العالم من خلال خطواتها ، كانت اللوحة المتصدرين تكشف. في حين أن النماذج التجارية العليا من Google (Gemini-2.5-Pro) والأنثروبور (Claude 4.0-Sonnet) تولى زمام المبادرة ، اكتشفت الاختبارات رؤية رائعة.

    قد تعتقد أن منظمة العفو الدولية متخصصة في كود الكتابة ستكون الأفضل في هذه المهام. لكن العكس كان صحيحا. وجد البحث أن “القدرات الشاملة للنماذج العامة غالباً ما تتفوق على تلك الخاصة بالألوان المتخصصة.”

    يتغلب النموذج للأغراض العامة ، Qwen-2.5-instruct ، على أشقائه الأكثر تخصصًا ، و QWEN-2.5-COMER (نموذج خاص بالدولة) و QWEN2.5-VL (نموذج متخصص في الرؤية).

    يعتقد الباحثون أن هذا يرجع إلى أن إنشاء تطبيق بصري رائع لا يتعلق فقط بالترميز أو الفهم البصري في عزلة ويتطلب مزيجًا من المهارات.

    “التفكير القوي ، والتعليمات الدقيقة التالية ، والشعور الضمني لتصميم جماليات التصميم” ، يبرز الباحثون على سبيل المثال المهارات الحيوية. هذه هي أنواع القدرات التي تشبه الإنسان تقريبًا والتي تشبه الإنسان تقريبًا والتي بدأت أفضل النماذج العامة في التطور.

    تأمل Tencent أن يتمكن معيار ArtifactSbench من تقييم هذه الصفات بشكل موثوق وبالتالي قياس التقدم المستقبلي في قدرة الذكاء الاصطناعي على إنشاء أشياء ليست وظيفية فحسب ، بل ما يريد المستخدمون استخدامه بالفعل.

    انظر أيضا: Tencent Hunyuan3d-polygen: نموذج للأصول ثلاثية الأبعاد “للفن”

    هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber ​​Security & Cloud.

    استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.

    شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr البريد الإلكتروني
    السابقتعطل هذا جهاز كمبيوتر ميني Ryzen 5 بدعم من ثلاثة شاشة مقابل 236 دولارًا
    التالي إذا كانت اللياقة البدنية هي الشيء الخاص بك ، فإن هذه Shokz OpenRun Pro 2 أصبحت الآن بأفضل سعر لها على الإطلاق

    المقالات ذات الصلة

    الذكاء الإصطناعي

    أعلنت أكسنشر و أنثروبيك شراكة لتعزيز تكامل الذكاء الاصطناعي للمؤسسات.

    11 ديسمبر, 2025
    الذكاء الإصطناعي

    داخل آليات عمل الشركات الرائدة في مجال الذكاء الاصطناعي.

    11 ديسمبر, 2025
    الذكاء الإصطناعي

    يتولى وكلاء الذكاء الاصطناعي مهام مؤسسية معقدة.

    11 ديسمبر, 2025
    الذكاء الإصطناعي

    تستهدف OpenAI سدّ فجوة مهارات الذكاء الاصطناعي عبر معايير شهادات جديدة.

    9 ديسمبر, 2025
    الذكاء الإصطناعي

    كيف يستخدم الناس الذكاء الاصطناعي فعليًا: نتائج تحليل مليارات التفاعلات.

    9 ديسمبر, 2025
    الذكاء الإصطناعي

    نيوزويك: تطوير مرونة الذكاء الاصطناعي لمواجهة تحديات عصر المعلومات.

    9 ديسمبر, 2025
    الذكاء الإصطناعي

    الذكاء الاصطناعي الطبي يساعد الأطباء في العمليات الجراحية بالمملكة المتحدة.

    9 ديسمبر, 2025
    الذكاء الإصطناعي

    تدعم جوجل وسوني وأوكتا مبادرة (الكشف عن التزييف العميق) المشابهة للذكاء الاصطناعي.

    9 ديسمبر, 2025
    الذكاء الإصطناعي

    تُصحح المنصة تحيزات الذكاء الاصطناعي في عمليات التحقق الإلكتروني من الهوية (eKYC).

    9 ديسمبر, 2025
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    Demo
    اخر الاخبار

    كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

    31 يوليو, 20241٬139 زيارة

    سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

    4 يوليو, 2024816 زيارة

    كل ما تريد معرفته عن Reacher الموسم الثالث

    6 مايو, 2024774 زيارة

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 2025749 زيارة

    Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

    2 أبريل, 2024720 زيارة

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    رائج الآن
    منوعات تقنية

    استخدم chatgpt بالعربي مجانا بدون تسجيل

    فريق التحرير29 مايو, 2025
    اخر الاخبار

    رجل مسؤول عن المنشآت العسكرية الساحلية يقول أن دود لا يهتم بتغير المناخ

    فريق التحرير11 فبراير, 2025
    اخر الاخبار

    يطلق Eufy أول فراغ روبوت في العالم مع منظف عميق محمول (بالإضافة إلى نموذج قوي آخر)

    فريق التحرير8 أبريل, 2025
    رائج الآن

    استخدم chatgpt بالعربي مجانا بدون تسجيل

    29 مايو, 202522 زيارة

    رجل مسؤول عن المنشآت العسكرية الساحلية يقول أن دود لا يهتم بتغير المناخ

    11 فبراير, 202513 زيارة

    يطلق Eufy أول فراغ روبوت في العالم مع منظف عميق محمول (بالإضافة إلى نموذج قوي آخر)

    8 أبريل, 202512 زيارة
    اختيارات المحرر

    أيربودز 4 (AirPods 4) معروضة الآن بسعر 80 دولارًا لفترة محدودة.

    11 ديسمبر, 2025

    أعلنت أكسنشر و أنثروبيك شراكة لتعزيز تكامل الذكاء الاصطناعي للمؤسسات.

    11 ديسمبر, 2025

    انخفض سعر ميكروفون Blue Yeti USB إلى 84.97 دولارًا في عرض مبكر لمعدات البث.

    11 ديسمبر, 2025

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    تقنية نيوز
    فيسبوك X (Twitter) الانستغرام يوتيوب لينكدإن تيكتوك
    • الرئيسية
    • سياسة الخصوصية
    • من نحن
    • اتصل بنا
    © 2025 تقنية نيوز. جميع حقوق النشر محفوظة.

    اكتب كلمة البحث ثم اضغط على زر Enter