Close Menu
تقنية نيوزتقنية نيوز

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    مقالات قد تهمك

    فطر ذواقة شهير يهرب من الحدائق ويغزو غابات الولايات المتحدة

    5 نوفمبر, 2025

    لقد نجحت ثاني أفضل كاميرا ويب في حل عيبها القاتل

    5 نوفمبر, 2025

    إعلان جديد من Xbox يثير الجدل عن معناه ومحتواه!

    5 نوفمبر, 2025
    فيسبوك X (Twitter) الانستغرام
    • من نحن
    • سياسة الخصوصية
    • اتصل بنا
    فيسبوك X (Twitter) الانستغرام يوتيوب
    تقنية نيوزتقنية نيوز
    • الرئيسية
    • اخر الاخبار
    • هواتف ذكية
    • كمبيوتر
    • برامج وتطبيقات
    • شركات
      • ابل
      • سامسونج
      • جوجل
      • مايكروسوفت
      • أمازون
    • المزيد
      • الذكاء الإصطناعي
      • الأمن الإلكتروني
      • ألعاب
      • منوعات تقنية
    اشترك معنا
    تقنية نيوزتقنية نيوز
    الرئيسية » تؤدي معايير الذكاء الاصطناعي المعيبة إلى تعريض ميزانيات المؤسسات للخطر
    الذكاء الإصطناعي

    تؤدي معايير الذكاء الاصطناعي المعيبة إلى تعريض ميزانيات المؤسسات للخطر

    فريق التحريربواسطة فريق التحرير4 نوفمبر, 20250 زيارةلا توجد تعليقات
    شاركها فيسبوك تويتر بينتيريست لينكدإن Tumblr رديت تيلقرام البريد الإلكتروني
    شاركها
    فيسبوك تويتر لينكدإن بينتيريست البريد الإلكتروني

    تشير مراجعة أكاديمية جديدة إلى أن معايير الذكاء الاصطناعي معيبة، مما قد يؤدي بالمؤسسة إلى اتخاذ قرارات عالية المخاطر بشأن البيانات “المضللة”.

    يخصص قادة المؤسسات ميزانيات مكونة من ثمانية أو تسعة أرقام لبرامج الذكاء الاصطناعي التوليدية. غالبًا ما تعتمد قرارات الشراء والتطوير هذه على لوحات المتصدرين العامة ومعايير الأداء لمقارنة قدرات النموذج.

    قامت دراسة واسعة النطاق، بعنوان “قياس ما يهم: بناء الصلاحية في المعايير القياسية لنماذج اللغة الكبيرة”، بتحليل 445 معيارًا منفصلاً لماجستير اللغة الإنجليزية من مؤتمرات الذكاء الاصطناعي الرائدة. وجد فريق من 29 مراجعًا خبيرًا أن “جميع المقالات تقريبًا بها نقاط ضعف في مجال واحد على الأقل”، مما يقوض الادعاءات التي يقدمونها حول أداء النموذج.

    بالنسبة للمديرين التنفيذيين للتكنولوجيا وكبار مسؤولي البيانات، فهو يضرب في صميم حوكمة الذكاء الاصطناعي واستراتيجية الاستثمار. إذا كان المعيار الذي يدعي قياس “السلامة” أو “المتانة” لا يجسد هذه الصفات فعليًا، فيمكن للمؤسسة نشر نموذج يعرضها لمخاطر مالية خطيرة ومخاطر تتعلق بالسمعة.

    مشكلة “صلاحية البناء”.

    ركز الباحثون على مبدأ علمي أساسي يعرف باسم صلاحية البناء. بعبارات بسيطة، هذه هي الدرجة التي يقيس بها الاختبار المفهوم المجرد الذي يدعي أنه يقيسه.

    على سبيل المثال، في حين لا يمكن قياس “الذكاء” بشكل مباشر، يتم إنشاء الاختبارات لتكون بمثابة أدوات بديلة قابلة للقياس. تشير الورقة إلى أنه إذا كان المعيار ذو صلاحية بناء منخفضة، “فقد تكون النتيجة العالية غير ذات صلة أو حتى مضللة”.

    هذه المشكلة منتشرة على نطاق واسع في تقييم الذكاء الاصطناعي. وجدت الدراسة أن المفاهيم الأساسية غالبًا ما تكون “محددة أو غير قابلة للتنفيذ بشكل جيد”. وهذا يمكن أن يؤدي إلى “ادعاءات علمية مدعومة بشكل سيئ، وأبحاث مضللة، وتداعيات سياسية لا ترتكز على أدلة قوية”.

    عندما يتنافس البائعون على عقود المؤسسات من خلال تسليط الضوء على أعلى درجاتهم في المعايير، فإن القادة يثقون فعليًا في أن هذه النتائج هي وكيل موثوق لأداء الأعمال في العالم الحقيقي. يشير هذا البحث الجديد إلى أن الثقة قد تكون في غير محلها.

    حيث تفشل معايير الذكاء الاصطناعي للمؤسسة

    حددت المراجعة أوجه القصور المنهجية في جميع المجالات، بدءًا من كيفية تصميم المعايير وحتى كيفية الإبلاغ عن نتائجها.

    تعريفات غامضة أو متنازع عليها: لا يمكنك قياس ما لا يمكنك تحديده. ووجدت الدراسة أنه حتى عندما تم تقديم تعريفات لظاهرة ما، فإن 47.8% منها كانت “متنازع عليها”، حيث تناولت المفاهيم “بالعديد من التعريفات الممكنة أو بدون تعريف واضح على الإطلاق”.

    وتستخدم الورقة مصطلح “عدم الضرر” – وهو هدف رئيسي في مواءمة سلامة المؤسسات – كمثال لظاهرة تفتقر في كثير من الأحيان إلى تعريف واضح ومتفق عليه. إذا سجل بائعان نتائج مختلفة في معيار “عدم الضرر”، فقد يعكس ذلك فقط تعريفين مختلفين وتعسفيين للمصطلح، وليس اختلافًا حقيقيًا في سلامة النموذج.

    عدم الدقة الإحصائية: ولعل الأمر الأكثر إثارة للقلق بالنسبة للمؤسسات التي تعتمد على البيانات هو أن المراجعة وجدت أن 16 بالمائة فقط من المعايير الـ 445 استخدمت تقديرات عدم اليقين أو الاختبارات الإحصائية لمقارنة نتائج النماذج.

    بدون تحليل إحصائي، من المستحيل معرفة ما إذا كان تقدم النموذج A على النموذج B بنسبة 2% يمثل فرقًا حقيقيًا في القدرة أم مجرد فرصة عشوائية. يتم توجيه قرارات المؤسسة بأرقام لا تجتاز المراجعة العلمية أو ذكاء الأعمال الأساسية.

    تلوث البيانات وحفظها: يتم تقويض العديد من المعايير، وخاصة تلك المتعلقة بالاستدلال (مثل GSM8K المستخدم على نطاق واسع)، عندما تظهر أسئلتها وإجاباتها في بيانات التدريب المسبق للنموذج.

    عندما يحدث هذا، لا يقوم النموذج بالاستدلال للعثور على الإجابة؛ إنه ببساطة حفظه. قد تشير النتيجة العالية إلى ذاكرة جيدة، وليس إلى القدرة المنطقية المتقدمة التي تحتاجها المؤسسة بالفعل لمهمة معقدة. تحذر الورقة من أن هذا “يقوض (تقوض) صحة النتائج” وتوصي ببناء فحوصات التلوث مباشرة في المعيار.

    مجموعات البيانات غير التمثيلية: وجدت الدراسة أن 27% من المعايير استخدمت “عينات ملائمة”، مثل إعادة استخدام البيانات من المعايير الحالية أو الاختبارات البشرية. غالبًا ما لا تمثل هذه البيانات ظاهرة العالم الحقيقي.

    على سبيل المثال، لاحظ المؤلفون أن إعادة استخدام الأسئلة من “اختبار خالٍ من الآلة الحاسبة” يعني أن المسائل تستخدم أرقامًا تم اختيارها لتكون سهلة في العمليات الحسابية الأساسية. قد يحصل النموذج على نتيجة جيدة في هذا الاختبار، لكن هذه النتيجة “لن تتنبأ بالأداء على الأعداد الأكبر، حيث يواجه طلاب ماجستير القانون صعوبات”. يؤدي هذا إلى إنشاء نقطة عمياء حرجة، مما يخفي نقطة ضعف معروفة في النموذج.

    من المقاييس العامة إلى التحقق الداخلي

    بالنسبة لقادة الشركات، تعتبر الدراسة بمثابة تحذير قوي: معايير الذكاء الاصطناعي العامة ليست بديلاً عن التقييم الداخلي والمجال المحدد. لا تعد النتيجة العالية في لوحة المتصدرين العامة ضمانًا للملاءمة لغرض تجاري محدد.

    وعلقت إيزابيلا غراندي، مديرة استراتيجية البيانات والحوكمة في شركة NTT DATA UK&I: “قد لا يكون معيار واحد هو الطريقة الصحيحة لفهم مدى تعقيد أنظمة الذكاء الاصطناعي، وتوقع القيام بذلك يخاطر بتقليص التقدم إلى لعبة أرقام بدلاً من كونه مقياسًا للمسؤولية في العالم الحقيقي. ما يهم أكثر هو التقييم المتسق وفقًا لمبادئ واضحة تضمن أن التكنولوجيا تخدم الناس وكذلك التقدم.

    “تعكس المنهجية الجيدة – على النحو المنصوص عليه في ISO/IEC 42001:2023 – هذا التوازن من خلال خمسة مبادئ أساسية: المساءلة والعدالة والشفافية والأمن والتعويض. تحدد المساءلة الملكية والمسؤولية عن أي نظام ذكاء اصطناعي يتم نشره. الشفافية والعدالة توجه القرارات نحو نتائج أخلاقية وقابلة للتفسير. الأمن والخصوصية غير قابلين للتفاوض، مما يمنع سوء الاستخدام ويعزز ثقة الجمهور. يوفر التعويض والمنافسة آلية حيوية للرقابة، مما يضمن قدرة الأشخاص على الاعتراض على النتائج وتصحيحها عندما ضروري.

    “يعتمد التقدم الحقيقي في مجال الذكاء الاصطناعي على التعاون الذي يجمع بين رؤية الحكومة وفضول الأوساط الأكاديمية والدافع العملي للصناعة. وعندما تكون الشراكات مدعومة بحوار مفتوح ومعايير مشتركة، فإن ذلك يبني الشفافية اللازمة للناس لغرس الثقة في أنظمة الذكاء الاصطناعي. وسيعتمد الابتكار المسؤول دائمًا على التعاون الذي يعزز الرقابة مع الحفاظ على الطموح حيًا.”

    توفر توصيات الورقة الثماني قائمة مرجعية عملية لأي مؤسسة تتطلع إلى بناء معاييرها وتقييماتها الداخلية الخاصة بالذكاء الاصطناعي، بما يتماشى مع النهج القائم على المبادئ.

    • تحديد الظاهرة الخاصة بك: قبل اختبار النماذج، يجب على المؤسسات أولاً إنشاء “تعريف دقيق وعملي للظاهرة التي يتم قياسها”. ماذا تعني الاستجابة “المفيدة” في سياق خدمة العملاء لديك؟ ماذا تعني كلمة “دقيق” بالنسبة لتقاريرك المالية؟
    • بناء مجموعة بيانات تمثيلية: المعيار الأكثر قيمة هو المعيار المبني على بياناتك الخاصة. وتحث الورقة المطورين على “إنشاء مجموعة بيانات تمثيلية للمهمة”. وهذا يعني استخدام عناصر المهام التي تعكس السيناريوهات والتنسيقات والتحديات الواقعية التي يواجهها موظفوك وعملائك.
    • إجراء تحليل الخطأ: تجاوز النتيجة النهائية. ويوصي التقرير الفرق “بإجراء تحليل نوعي وكمي لأنماط الفشل الشائعة”. يعد تحليل سبب فشل النموذج أكثر إفادة من مجرد معرفة نتيجته. وإذا كانت إخفاقاته كلها تتعلق بمواضيع ذات أولوية منخفضة وغامضة، فقد يكون مقبولا؛ إذا فشلت في حالات الاستخدام الأكثر شيوعًا وذات القيمة العالية، فستصبح تلك النتيجة الفردية غير ذات صلة.
    • تبرير الصلاحية: وأخيرًا، يجب على الفرق “تبرير أهمية المعيار المرجعي للظاهرة من خلال تطبيقات العالم الحقيقي”. يجب أن يأتي كل تقييم مصحوبًا بأساس منطقي واضح يوضح سبب كون هذا الاختبار المحدد بمثابة وكيل صالح لقيمة الأعمال.

    إن السباق لنشر الذكاء الاصطناعي التوليدي يدفع المؤسسات إلى التحرك بشكل أسرع مما تستطيع أطر الحوكمة الخاصة بها مواكبته. ويبين هذا التقرير أن الأدوات المستخدمة لقياس التقدم غالبا ما تكون معيبة. إن المسار الوحيد الذي يمكن الاعتماد عليه للمضي قدمًا هو التوقف عن الثقة في معايير الذكاء الاصطناعي العامة والبدء في “قياس ما يهم” لمؤسستك الخاصة.

    أنظر أيضا: تنشر OpenAI رهانًا بقيمة 600 مليار دولار على الذكاء الاصطناعي السحابي عبر AWS وOracle وMicrosoft

    هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. يعد هذا الحدث الشامل جزءًا من TechEx ويقام في مكان مشترك مع أحداث تكنولوجية رائدة أخرى بما في ذلك معرض الأمن السيبراني، انقر هنا لمزيد من المعلومات.

    يتم تشغيل AI News بواسطة TechForge Media. استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات هنا.

    شاركها. فيسبوك تويتر بينتيريست لينكدإن Tumblr البريد الإلكتروني
    السابقوفر 1100 دولار (!!!) على هذا الكمبيوتر المحمول المخصص للألعاب RTX 5080 OLED اليوم
    التالي “ساحرة بلير 2” فشل مذهل

    المقالات ذات الصلة

    الذكاء الإصطناعي

    يقدم ClinCheck Live تخطيط الذكاء الاصطناعي لعلاجات الأسنان Invisalign

    4 نوفمبر, 2025
    الذكاء الإصطناعي

    تمثل متصفحات الذكاء الاصطناعي تهديدًا أمنيًا كبيرًا

    3 نوفمبر, 2025
    الذكاء الإصطناعي

    تنشر OpenAI رهانًا بقيمة 600 مليار دولار على الذكاء الاصطناعي السحابي عبر AWS وOracle وMicrosoft

    3 نوفمبر, 2025
    الذكاء الإصطناعي

    قياس عائد استثمار الذكاء الاصطناعي في الإستراتيجية

    3 نوفمبر, 2025
    الذكاء الإصطناعي

    DevOps for AI: خطوط أنابيب النشر المستمر لأنظمة التعلم الآلي

    3 نوفمبر, 2025
    الذكاء الإصطناعي

    NVIDIA وكوريا الجنوبية تتفقان بشأن الذكاء الاصطناعي السيادي في قمة APEC

    3 نوفمبر, 2025
    الذكاء الإصطناعي

    كشف النقاب عن رقائق مركز بيانات Qualcomm AI: AI200 وAI250

    3 نوفمبر, 2025
    الذكاء الإصطناعي

    يريد Reco القضاء على النقطة العمياء للظل AI

    31 أكتوبر, 2025
    الذكاء الإصطناعي

    كيف يعيد لومانا تعريف دور الذكاء الاصطناعي في المراقبة بالفيديو

    31 أكتوبر, 2025
    اترك تعليقاً
    اترك تعليقاً إلغاء الرد

    Demo
    اخر الاخبار

    كيفية تسجيل مقاطع فيديو محمية بدون شاشة سوداء

    31 يوليو, 20241٬078 زيارة

    سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

    4 يوليو, 2024795 زيارة

    كل ما تريد معرفته عن Reacher الموسم الثالث

    6 مايو, 2024767 زيارة

    Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

    2 أبريل, 2024715 زيارة

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 2025699 زيارة

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    رائج الآن
    منوعات تقنية

    استخدم chatgpt بالعربي مجانا بدون تسجيل

    فريق التحرير29 مايو, 2025
    اخر الاخبار

    يحصل iPhone على أول تطبيق إباحي أصلي له

    فريق التحرير4 فبراير, 2025
    اخر الاخبار

    أفضل الألعاب الجنسية في معرض CES 2025

    فريق التحرير13 يناير, 2025
    رائج الآن

    استخدم chatgpt بالعربي مجانا بدون تسجيل

    29 مايو, 202525 زيارة

    يحصل iPhone على أول تطبيق إباحي أصلي له

    4 فبراير, 202516 زيارة

    أفضل الألعاب الجنسية في معرض CES 2025

    13 يناير, 202514 زيارة
    اختيارات المحرر

    فطر ذواقة شهير يهرب من الحدائق ويغزو غابات الولايات المتحدة

    5 نوفمبر, 2025

    لقد نجحت ثاني أفضل كاميرا ويب في حل عيبها القاتل

    5 نوفمبر, 2025

    إعلان جديد من Xbox يثير الجدل عن معناه ومحتواه!

    5 نوفمبر, 2025

    خدمة الإشعارات البريدية

    اشترك في خدمة الإشعارات البريدية ليصلك كل جديد الى بريدك الإلكتروني مباشرة.

    تقنية نيوز
    فيسبوك X (Twitter) الانستغرام يوتيوب لينكدإن تيكتوك
    • الرئيسية
    • سياسة الخصوصية
    • من نحن
    • اتصل بنا
    © 2025 تقنية نيوز. جميع حقوق النشر محفوظة.

    اكتب كلمة البحث ثم اضغط على زر Enter