Close Menu
تقنية نيوزتقنية نيوز

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    مقالات قد تهمك

    تصميم لوجو احترافي: 7 أخطاء تجعل شعار مشروعك يبدو غير احترافي

    24 مايو, 2026

    فرانك فيلا تضع دول الخليج في صدارة أولوياتها الاستراتيجية مع اقتراب سوق الساعات الفاخرة في المنطقة من 830 مليون دولار

    23 مايو, 2026

    تقول شركة جوجل إنه يتم إساءة استخدام الذكاء الاصطناعي على المستوى الصناعي لشن هجمات إلكترونية، وقد أحبطت واحدة للتو

    19 مايو, 2026
    فيسبوك X (Twitter) الانستغرام
    • من نحن
    • سياسة الخصوصية
    • اتصل بنا
    فيسبوك X (Twitter) الانستغرام يوتيوب
    تقنية نيوزتقنية نيوز
    • الرئيسية
    • اخر الاخبار
    • هواتف ذكية
    • كمبيوتر
    • برامج وتطبيقات
    • شركات
      • ابل
      • سامسونج
      • جوجل
      • مايكروسوفت
      • أمازون
    • المزيد
      • الذكاء الإصطناعي
      • الأمن الإلكتروني
      • ألعاب
      • منوعات تقنية
    اشترك معنا
    تقنية نيوزتقنية نيوز
    الرئيسية » توصلت الدراسة إلى أن قدرات الذكاء الاصطناعي قد يتم المبالغة فيها بناءً على معايير زائفة
    اخر الاخبار

    توصلت الدراسة إلى أن قدرات الذكاء الاصطناعي قد يتم المبالغة فيها بناءً على معايير زائفة

    فريق التحريربواسطة فريق التحرير7 نوفمبر, 20251 زيارةلا توجد تعليقات
    شاركها فيسبوك تويتر بينتيريست لينكدإن Tumblr رديت تيلقرام البريد الإلكتروني
    شاركها
    فيسبوك تويتر لينكدإن بينتيريست البريد الإلكتروني

    هل تعرف كل تلك التقارير حول نماذج الذكاء الاصطناعي التي نجحت في اجتياز المعيار أو تحقيق ذكاء على مستوى الدكتوراه؟ يبدو أننا يجب أن نبدأ باستعادة تلك الدرجات العلمية. تشير دراسة جديدة أجراها باحثون في معهد أكسفورد للإنترنت إلى أن معظم أدوات قياس الأداء الشائعة المستخدمة لاختبار أداء الذكاء الاصطناعي غالبًا ما تكون غير موثوقة ومضللة.

    نظر الباحثون في 445 اختبارًا قياسيًا مختلفًا تستخدمها الصناعة والمؤسسات الأكاديمية الأخرى لاختبار كل شيء بدءًا من القدرات المنطقية وحتى الأداء في مهام البرمجة. قام الخبراء بمراجعة كل نهج مرجعي ووجدوا مؤشرات على أن النتائج التي تنتجها هذه الاختبارات قد لا تكون دقيقة كما تم تقديمها، ويرجع ذلك جزئيًا إلى التعريفات الغامضة لما يحاول المعيار اختباره وعدم الكشف عن الأساليب الإحصائية التي من شأنها أن تسمح بمقارنة النماذج المختلفة بسهولة.

    المشكلة الكبيرة التي وجدها الباحثون هي أن “العديد من المعايير ليست قياسات صالحة للأهداف المقصودة”. وهذا يعني أنه في حين أن المعيار قد يدعي أنه يقيس مهارة معينة، فإنه يمكن أن يحدد تلك المهارة بطريقة لا تلتقط في الواقع قدرة النموذج.

    على سبيل المثال، يشير الباحثون إلى اختبار قياس الأداء في الرياضيات للصف الدراسي 8K (GSM8K)، والذي يقيس أداء النموذج في مسائل الرياضيات القائمة على الكلمات على مستوى المدرسة، والمصمم لدفع النموذج إلى “الاستدلال الرياضي متعدد الخطوات”. يتم الإعلان عن GSM8K على أنه “مفيد في اختبار قدرة التفكير غير الرسمية لنماذج اللغات الكبيرة.”

    لكن الباحثين يقولون إن الاختبار لا يخبرك بالضرورة ما إذا كان النموذج منخرطًا في الاستدلال أم لا. “عندما تسأل طالبًا في الصف الأول ما يساوي اثنين زائد خمسة فيقول سبعة، نعم، هذه هي الإجابة الصحيحة. ولكن هل يمكنك أن تستنتج من هذا أن طالبًا في الصف الخامس قد أتقن التفكير الرياضي أو التفكير الحسابي من مجرد القدرة على جمع الأرقام؟ ربما، لكنني أعتقد أن الإجابة على الأرجح هي لا، “قال آدم مهدي، زميل أبحاث كبير في معهد أكسفورد للإنترنت والمؤلف الرئيسي للدراسة، لشبكة NBC News.

    وفي الدراسة، أشار الباحثون إلى أن درجات GSM8K زادت بمرور الوقت، مما قد يشير إلى تحسن النماذج في هذا النوع من التفكير والأداء. ولكنه قد يشير أيضًا إلى التلوث، الذي يحدث عندما تصل أسئلة الاختبار المعياري إلى مجموعة بيانات النموذج أو يبدأ النموذج في “حفظ” الإجابات أو المعلومات بدلاً من التفكير في طريقه إلى الحل. وعندما اختبر الباحثون نفس الأداء على مجموعة جديدة من الأسئلة المعيارية، لاحظوا أن النماذج شهدت “انخفاضات كبيرة في الأداء”.

    على الرغم من أن هذه الدراسة تعد من بين أكبر المراجعات لقياس الذكاء الاصطناعي، إلا أنها ليست الأولى التي تشير إلى أن نظام القياس هذا قد لا يكون هو كل ما يُباع ليكون عليه. في العام الماضي، قام الباحثون في جامعة ستانفورد بتحليل العديد من الاختبارات القياسية لنماذج الذكاء الاصطناعي الشائعة ووجدوا “اختلافات كبيرة في الجودة بينها، بما في ذلك تلك التي يعتمد عليها المطورون وصناع السياسات على نطاق واسع”، وأشاروا إلى أن معظم المعايير “تكون أعلى جودة في مرحلة التصميم وأقل جودة في مرحلة التنفيذ”.

    إذا لم يكن هناك أي شيء آخر، فإن البحث هو بمثابة تذكير جيد بأن مقاييس الأداء هذه، رغم حسن النية في كثير من الأحيان والمقصود منها تقديم تحليل دقيق للنموذج، لا يمكن تحويلها إلى أكثر من مجرد خطاب تسويقي للشركات.

    شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr البريد الإلكتروني
    السابقيتوفر الآن خصم يزيد عن 50% على محرك الأقراص المحمول USB الصغير والسريع بسعة 256 جيجابايت
    التالي أبرز ردود الأفعال التي صاحبت تأجيل GTA 6: بين الصدمة والطرافة!

    المقالات ذات الصلة

    اخر الاخبار

    فرانك فيلا تضع دول الخليج في صدارة أولوياتها الاستراتيجية مع اقتراب سوق الساعات الفاخرة في المنطقة من 830 مليون دولار

    23 مايو, 2026
    اخر الاخبار

    شاهدت طائرة ناسا الأسرعة من الصوت مناورات خلال اختبارها الأخير.

    4 مايو, 2026
    اخر الاخبار

    في عهد تيرنوس، تشهد شركة آبل مرحلة جديدة من الإنفاق.

    3 مايو, 2026
    اخر الاخبار

    ترقية نظام التشغيل إلى Windows 11 Pro متاحة مقابل 10 دولارات فقط.

    2 مايو, 2026
    اخر الاخبار

    بدائل (Docusign) للفرق: معايير الاختيار وتجنب الأخطاء.

    30 أبريل, 2026
    اخر الاخبار

    بيكسار تستكشف أفكارًا إضافية لسلسلة “قصة لعبة” إلى جانب الجزء الخامس.

    28 أبريل, 2026
    اخر الاخبار

    كيف يصلح البحارة الرومان السفن أثناء الإبحار بعيدًا عن الميناء.

    24 أبريل, 2026
    اخر الاخبار

    أصبح استبدال باقة التلفزيون باهظة الثمن بهوائي أمرًا أسهل.

    23 أبريل, 2026
    اخر الاخبار

    يستهدف تحديث ويندوز 11 القادم من مايكروسوفت الاستقرار والسرعة.

    21 أبريل, 2026
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    Demo
    اخر الاخبار

    مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

    25 يوليو, 20241٬193 زيارة

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 2025878 زيارة

    سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

    4 يوليو, 2024831 زيارة

    كل ما تريد معرفته عن Reacher الموسم الثالث

    6 مايو, 2024786 زيارة

    Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

    2 أبريل, 2024732 زيارة

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    رائج الآن
    ألعاب

    أفضل 10 ألعاب مجانية على الكمبيوتر مع روابط التحميل المباشر

    فريق التحرير29 يوليو, 2024
    ألعاب

    رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

    فريق التحرير11 نوفمبر, 2025
    ألعاب

    قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

    فريق التحرير19 يونيو, 2025
    رائج الآن

    أفضل 10 ألعاب مجانية على الكمبيوتر مع روابط التحميل المباشر

    29 يوليو, 202427 زيارة

    رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

    11 نوفمبر, 202526 زيارة

    قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

    19 يونيو, 202521 زيارة
    اختيارات المحرر

    تصميم لوجو احترافي: 7 أخطاء تجعل شعار مشروعك يبدو غير احترافي

    24 مايو, 2026

    فرانك فيلا تضع دول الخليج في صدارة أولوياتها الاستراتيجية مع اقتراب سوق الساعات الفاخرة في المنطقة من 830 مليون دولار

    23 مايو, 2026

    تقول شركة جوجل إنه يتم إساءة استخدام الذكاء الاصطناعي على المستوى الصناعي لشن هجمات إلكترونية، وقد أحبطت واحدة للتو

    19 مايو, 2026

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    تقنية نيوز
    فيسبوك X (Twitter) الانستغرام يوتيوب لينكدإن تيكتوك
    • الرئيسية
    • سياسة الخصوصية
    • من نحن
    • اتصل بنا
    © 2026 تقنية نيوز. جميع حقوق النشر محفوظة.

    اكتب كلمة البحث ثم اضغط على زر Enter