تشير مراجعة أكاديمية جديدة إلى أن معايير الذكاء الاصطناعي معيبة، مما قد يؤدي بالمؤسسة إلى اتخاذ قرارات عالية المخاطر بشأن البيانات “المضللة”.
يخصص قادة المؤسسات ميزانيات مكونة من ثمانية أو تسعة أرقام لبرامج الذكاء الاصطناعي التوليدية. غالبًا ما تعتمد قرارات الشراء والتطوير هذه على لوحات المتصدرين العامة ومعايير الأداء لمقارنة قدرات النموذج.
قامت دراسة واسعة النطاق، بعنوان “قياس ما يهم: بناء الصلاحية في المعايير القياسية لنماذج اللغة الكبيرة”، بتحليل 445 معيارًا منفصلاً لماجستير اللغة الإنجليزية من مؤتمرات الذكاء الاصطناعي الرائدة. وجد فريق من 29 مراجعًا خبيرًا أن “جميع المقالات تقريبًا بها نقاط ضعف في مجال واحد على الأقل”، مما يقوض الادعاءات التي يقدمونها حول أداء النموذج.
بالنسبة للمديرين التنفيذيين للتكنولوجيا وكبار مسؤولي البيانات، فهو يضرب في صميم حوكمة الذكاء الاصطناعي واستراتيجية الاستثمار. إذا كان المعيار الذي يدعي قياس “السلامة” أو “المتانة” لا يجسد هذه الصفات فعليًا، فيمكن للمؤسسة نشر نموذج يعرضها لمخاطر مالية خطيرة ومخاطر تتعلق بالسمعة.
مشكلة “صلاحية البناء”.
ركز الباحثون على مبدأ علمي أساسي يعرف باسم صلاحية البناء. بعبارات بسيطة، هذه هي الدرجة التي يقيس بها الاختبار المفهوم المجرد الذي يدعي أنه يقيسه.
على سبيل المثال، في حين لا يمكن قياس “الذكاء” بشكل مباشر، يتم إنشاء الاختبارات لتكون بمثابة أدوات بديلة قابلة للقياس. تشير الورقة إلى أنه إذا كان المعيار ذو صلاحية بناء منخفضة، “فقد تكون النتيجة العالية غير ذات صلة أو حتى مضللة”.
هذه المشكلة منتشرة على نطاق واسع في تقييم الذكاء الاصطناعي. وجدت الدراسة أن المفاهيم الأساسية غالبًا ما تكون “محددة أو غير قابلة للتنفيذ بشكل جيد”. وهذا يمكن أن يؤدي إلى “ادعاءات علمية مدعومة بشكل سيئ، وأبحاث مضللة، وتداعيات سياسية لا ترتكز على أدلة قوية”.
عندما يتنافس البائعون على عقود المؤسسات من خلال تسليط الضوء على أعلى درجاتهم في المعايير، فإن القادة يثقون فعليًا في أن هذه النتائج هي وكيل موثوق لأداء الأعمال في العالم الحقيقي. يشير هذا البحث الجديد إلى أن الثقة قد تكون في غير محلها.
حيث تفشل معايير الذكاء الاصطناعي للمؤسسة
حددت المراجعة أوجه القصور المنهجية في جميع المجالات، بدءًا من كيفية تصميم المعايير وحتى كيفية الإبلاغ عن نتائجها.
تعريفات غامضة أو متنازع عليها: لا يمكنك قياس ما لا يمكنك تحديده. ووجدت الدراسة أنه حتى عندما تم تقديم تعريفات لظاهرة ما، فإن 47.8% منها كانت “متنازع عليها”، حيث تناولت المفاهيم “بالعديد من التعريفات الممكنة أو بدون تعريف واضح على الإطلاق”.
وتستخدم الورقة مصطلح “عدم الضرر” – وهو هدف رئيسي في مواءمة سلامة المؤسسات – كمثال لظاهرة تفتقر في كثير من الأحيان إلى تعريف واضح ومتفق عليه. إذا سجل بائعان نتائج مختلفة في معيار “عدم الضرر”، فقد يعكس ذلك فقط تعريفين مختلفين وتعسفيين للمصطلح، وليس اختلافًا حقيقيًا في سلامة النموذج.
عدم الدقة الإحصائية: ولعل الأمر الأكثر إثارة للقلق بالنسبة للمؤسسات التي تعتمد على البيانات هو أن المراجعة وجدت أن 16 بالمائة فقط من المعايير الـ 445 استخدمت تقديرات عدم اليقين أو الاختبارات الإحصائية لمقارنة نتائج النماذج.
بدون تحليل إحصائي، من المستحيل معرفة ما إذا كان تقدم النموذج A على النموذج B بنسبة 2% يمثل فرقًا حقيقيًا في القدرة أم مجرد فرصة عشوائية. يتم توجيه قرارات المؤسسة بأرقام لا تجتاز المراجعة العلمية أو ذكاء الأعمال الأساسية.
تلوث البيانات وحفظها: يتم تقويض العديد من المعايير، وخاصة تلك المتعلقة بالاستدلال (مثل GSM8K المستخدم على نطاق واسع)، عندما تظهر أسئلتها وإجاباتها في بيانات التدريب المسبق للنموذج.
عندما يحدث هذا، لا يقوم النموذج بالاستدلال للعثور على الإجابة؛ إنه ببساطة حفظه. قد تشير النتيجة العالية إلى ذاكرة جيدة، وليس إلى القدرة المنطقية المتقدمة التي تحتاجها المؤسسة بالفعل لمهمة معقدة. تحذر الورقة من أن هذا “يقوض (تقوض) صحة النتائج” وتوصي ببناء فحوصات التلوث مباشرة في المعيار.
مجموعات البيانات غير التمثيلية: وجدت الدراسة أن 27% من المعايير استخدمت “عينات ملائمة”، مثل إعادة استخدام البيانات من المعايير الحالية أو الاختبارات البشرية. غالبًا ما لا تمثل هذه البيانات ظاهرة العالم الحقيقي.
على سبيل المثال، لاحظ المؤلفون أن إعادة استخدام الأسئلة من “اختبار خالٍ من الآلة الحاسبة” يعني أن المسائل تستخدم أرقامًا تم اختيارها لتكون سهلة في العمليات الحسابية الأساسية. قد يحصل النموذج على نتيجة جيدة في هذا الاختبار، لكن هذه النتيجة “لن تتنبأ بالأداء على الأعداد الأكبر، حيث يواجه طلاب ماجستير القانون صعوبات”. يؤدي هذا إلى إنشاء نقطة عمياء حرجة، مما يخفي نقطة ضعف معروفة في النموذج.
من المقاييس العامة إلى التحقق الداخلي
بالنسبة لقادة الشركات، تعتبر الدراسة بمثابة تحذير قوي: معايير الذكاء الاصطناعي العامة ليست بديلاً عن التقييم الداخلي والمجال المحدد. لا تعد النتيجة العالية في لوحة المتصدرين العامة ضمانًا للملاءمة لغرض تجاري محدد.
وعلقت إيزابيلا غراندي، مديرة استراتيجية البيانات والحوكمة في شركة NTT DATA UK&I: “قد لا يكون معيار واحد هو الطريقة الصحيحة لفهم مدى تعقيد أنظمة الذكاء الاصطناعي، وتوقع القيام بذلك يخاطر بتقليص التقدم إلى لعبة أرقام بدلاً من كونه مقياسًا للمسؤولية في العالم الحقيقي. ما يهم أكثر هو التقييم المتسق وفقًا لمبادئ واضحة تضمن أن التكنولوجيا تخدم الناس وكذلك التقدم.
“تعكس المنهجية الجيدة – على النحو المنصوص عليه في ISO/IEC 42001:2023 – هذا التوازن من خلال خمسة مبادئ أساسية: المساءلة والعدالة والشفافية والأمن والتعويض. تحدد المساءلة الملكية والمسؤولية عن أي نظام ذكاء اصطناعي يتم نشره. الشفافية والعدالة توجه القرارات نحو نتائج أخلاقية وقابلة للتفسير. الأمن والخصوصية غير قابلين للتفاوض، مما يمنع سوء الاستخدام ويعزز ثقة الجمهور. يوفر التعويض والمنافسة آلية حيوية للرقابة، مما يضمن قدرة الأشخاص على الاعتراض على النتائج وتصحيحها عندما ضروري.
“يعتمد التقدم الحقيقي في مجال الذكاء الاصطناعي على التعاون الذي يجمع بين رؤية الحكومة وفضول الأوساط الأكاديمية والدافع العملي للصناعة. وعندما تكون الشراكات مدعومة بحوار مفتوح ومعايير مشتركة، فإن ذلك يبني الشفافية اللازمة للناس لغرس الثقة في أنظمة الذكاء الاصطناعي. وسيعتمد الابتكار المسؤول دائمًا على التعاون الذي يعزز الرقابة مع الحفاظ على الطموح حيًا.”
توفر توصيات الورقة الثماني قائمة مرجعية عملية لأي مؤسسة تتطلع إلى بناء معاييرها وتقييماتها الداخلية الخاصة بالذكاء الاصطناعي، بما يتماشى مع النهج القائم على المبادئ.
- تحديد الظاهرة الخاصة بك: قبل اختبار النماذج، يجب على المؤسسات أولاً إنشاء “تعريف دقيق وعملي للظاهرة التي يتم قياسها”. ماذا تعني الاستجابة “المفيدة” في سياق خدمة العملاء لديك؟ ماذا تعني كلمة “دقيق” بالنسبة لتقاريرك المالية؟
- بناء مجموعة بيانات تمثيلية: المعيار الأكثر قيمة هو المعيار المبني على بياناتك الخاصة. وتحث الورقة المطورين على “إنشاء مجموعة بيانات تمثيلية للمهمة”. وهذا يعني استخدام عناصر المهام التي تعكس السيناريوهات والتنسيقات والتحديات الواقعية التي يواجهها موظفوك وعملائك.
- إجراء تحليل الخطأ: تجاوز النتيجة النهائية. ويوصي التقرير الفرق “بإجراء تحليل نوعي وكمي لأنماط الفشل الشائعة”. يعد تحليل سبب فشل النموذج أكثر إفادة من مجرد معرفة نتيجته. وإذا كانت إخفاقاته كلها تتعلق بمواضيع ذات أولوية منخفضة وغامضة، فقد يكون مقبولا؛ إذا فشلت في حالات الاستخدام الأكثر شيوعًا وذات القيمة العالية، فستصبح تلك النتيجة الفردية غير ذات صلة.
- تبرير الصلاحية: وأخيرًا، يجب على الفرق “تبرير أهمية المعيار المرجعي للظاهرة من خلال تطبيقات العالم الحقيقي”. يجب أن يأتي كل تقييم مصحوبًا بأساس منطقي واضح يوضح سبب كون هذا الاختبار المحدد بمثابة وكيل صالح لقيمة الأعمال.
إن السباق لنشر الذكاء الاصطناعي التوليدي يدفع المؤسسات إلى التحرك بشكل أسرع مما تستطيع أطر الحوكمة الخاصة بها مواكبته. ويبين هذا التقرير أن الأدوات المستخدمة لقياس التقدم غالبا ما تكون معيبة. إن المسار الوحيد الذي يمكن الاعتماد عليه للمضي قدمًا هو التوقف عن الثقة في معايير الذكاء الاصطناعي العامة والبدء في “قياس ما يهم” لمؤسستك الخاصة.
أنظر أيضا: تنشر OpenAI رهانًا بقيمة 600 مليار دولار على الذكاء الاصطناعي السحابي عبر AWS وOracle وMicrosoft
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. يعد هذا الحدث الشامل جزءًا من TechEx ويقام في مكان مشترك مع أحداث تكنولوجية رائدة أخرى بما في ذلك معرض الأمن السيبراني، انقر هنا لمزيد من المعلومات.
يتم تشغيل AI News بواسطة TechForge Media. استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات هنا.
