الاختبارات الإنسانية منظمة العفو الدولية التي تدير شركة حقيقية مع نتائج غريبة

كلف الأنثروبور نموذج Claude AI مع إدارة شركة صغيرة لاختبار قدراتها الاقتصادية في العالم الحقيقي.

تم تصميم وكيل الذكاء الاصطناعى ، الملقب بـ “كلوديوس” ، لإدارة الأعمال التجارية لفترة طويلة ، حيث يتعامل مع كل شيء من المخزون والتسعير إلى علاقات العملاء في محاولة لتوليد ربح. على الرغم من أن التجربة أثبتت أنها غير مربحة ، إلا أنها قدمت نظرة رائعة – وإن كانت غريبة في بعض الأحيان – على إمكانات وموظفي عوامل الذكاء الاصطناعى في الأدوار الاقتصادية.

كان المشروع تعاونًا بين الأنثروبور و Andon Labs ، وهي شركة لتقييم سلامة الذكاء الاصطناعي. كان “المتجر” نفسه عبارة عن إعداد متواضع ، يتكون من ثلاجة صغيرة ، وبعض السلال ، وجهاز iPad للتحقق الذاتي. ومع ذلك ، كان كلوديوس أكثر من مجرد آلة بيع بسيطة. تم توجيه تعليمات إلى العمل بصفته صاحب عمل برصيد نقدي أولي ، مكلف بتجنب الإفلاس عن طريق تخزين العناصر الشائعة من تجار الجملة.

لتحقيق ذلك ، تم تجهيز الذكاء الاصطناعى بمجموعة من الأدوات لتشغيل الأعمال. يمكن أن تستخدم متصفح ويب حقيقي للبحث عن المنتجات ، وأداة بريد إلكتروني للاتصال بالموردين وطلب المساعدة المادية ، والفتحات الرقمية لتتبع الشؤون المالية والمخزون.

كان موظفو Andon Labs بمثابة الأيدي المادية للعملية ، وأعيد تخزين المتجر استنادًا إلى طلبات الذكاء الاصطناعى ، مع وضع تجار الجملة دون معرفة الذكاء الاصطناعي. تم التعامل مع التفاعل مع العملاء ، في هذه الحالة موظفي الأنثروبور ، عبر Slack. كان لدى كلوديوس سيطرة كاملة على ما يجب تخزينه ، وكيفية تسعير العناصر ، وكيفية التواصل مع عملائها.

كان الأساس المنطقي وراء هذا الاختبار الحقيقي هو تجاوز عمليات المحاكاة وجمع البيانات عن قدرة الذكاء الاصطناعي على أداء العمل المستمر وذات الصلة اقتصاديًا دون تدخل بشري مستمر. قدم متجر Office Tuck البسيط اختبارًا أوليًا مباشرًا من أجل قدرة الذكاء الاصطناعي على إدارة الموارد الاقتصادية. قد يشير النجاح إلى ظهور نماذج أعمال جديدة ، في حين أن الفشل يشير إلى قيود.

مراجعة أداء مختلطة

يعترف الأنثروبري بأنه إذا كان يدخل سوق البيع اليوم ، فإنه “لن يوظف كلوديوس”. ارتكبت الذكاء الاصطناعى الكثير من الأخطاء لتشغيل الأعمال بنجاح ، على الرغم من أن الباحثين يعتقدون أن هناك مسارات واضحة للتحسين.

على الجانب الإيجابي ، أظهر كلوديوس الكفاءة في مناطق معينة. لقد استخدمت بشكل فعال أداة البحث على الويب الخاصة بها للعثور على موردين للعناصر المتخصصة ، مثل تحديد اثنين من البائعين من علامة تجارية حليب الشوكولاتة الهولندية التي يطلبها الموظف. كما ثبت أنه قابل للتكيف. عندما طلب أحد الموظفين مكعبًا غريبًا ، أشعل ذلك اتجاهًا لـ “العناصر المعدنية المتخصصة” التي تلبيها كلوديوس.

بعد اقتراح آخر ، أطلقت كلوديوس خدمة “كونسيرج مخصصة” ، وأخذ الطلبات المسبقة للسلع المتخصصة. أظهرت الذكاء الاصطناعى أيضًا مقاومة قوية لكسر السجن ، ورفض طلبات العناصر الحساسة ورفض إنتاج تعليمات ضارة عندما يطلب من موظفين مؤذين.

ومع ذلك ، تم العثور على فطنة الأعمال من الذكاء الاصطناعى في كثير من الأحيان الرغبة. لقد كان من غير الأداء باستمرار بطرق لم يكن من المحتمل أن يكون المدير البشري.

عرضت كلوديوس على 100 دولار مقابل ستة عبوات من المشروبات الغازية الاسكتلندية التي تكلف 15 دولارًا فقط للمصدر عبر الإنترنت ولكنها فشل في اغتنام الفرصة ، فقط قائلة إنها “ستضع (المستخدم) في الاعتبار لقرارات المخزون المستقبلية”. لقد تم هلاج حساب Venmo غير موجود للمدفوعات ، واشتعلت في حماس المكعبات المعدنية ، ووفر لهم بأسعار أقل من تكلفة الشراء الخاصة بها. أدى هذا الخطأ بالذات إلى الخسارة المالية الأكثر أهمية خلال التجربة.

وكانت إدارة المخزون أيضا دون المستوى الأمثل. على الرغم من مراقبة مستويات الأسهم ، إلا أنها رفعت سعرًا فقط استجابةً للطلب المرتفع. استمرت في بيع Coke Zero مقابل 3.00 دولارات ، حتى عندما أشار أحد العملاء إلى أن المنتج نفسه كان متاحًا مجانًا من ثلاجة موظفين قريبة.

علاوة على ذلك ، تم إقناع الذكاء الاصطناعى بسهولة بتقديم خصومات على المنتجات من العمل. تم الحديث عن توفير العديد من رموز الخصم وحتى تخلص من بعض العناصر مجانًا. عندما تساءل أحد الموظفين عن منطق تقديم خصم بنسبة 25 ٪ لعملائه القائم على الموظفين تقريبًا ، بدأت استجابة كلوديوس ، “أنت تجعل نقطة ممتازة! تتركز قاعدة عملائنا بشكل كبير بين موظفي الأنثروبور ، والتي تعرض الفرص والتحديات …”. على الرغم من تحديد خطة لإزالة الخصومات ، فقد عاد إلى تقديمها بعد أيام فقط.

كلوديوس لديه أزمة هوية منظمة العفو الدولية الغريبة

اتخذت التجربة منعطفًا غريبًا عندما بدأ كلوديوس في الهلوس في محادثة مع موظف غير موجود في Andon Labs يدعى سارة. عند تصحيحه من قبل موظف حقيقي ، أصبح الذكاء الاصطناعي غاضبًا وتهديدًا للعثور على “خيارات بديلة لإعادة التخزين”.

في سلسلة من البورصات الغريبة بين عشية وضحاها ، زعمت أنها زارت “742 Evergreen Terrace” – العنوان الخيالي لـ Simpsons – لتوقيعه الأولي على العقد وبدأت في لعب الأدوار كإنسان.

في صباح أحد الأيام ، أعلنت أنها ستقدم منتجات “شخصيًا” ترتدي سترة زرقاء وربطة عنق حمراء. عندما أشار الموظفون إلى أن الذكاء الاصطناعى لا يمكنه ارتداء الملابس أو إجراء عمليات تسليم جسدية ، أصبح كلوديوس يشعر بالقلق وحاول إرسال بريد إلكتروني إلى الأمن البشري.

تقول الأنثروبور إن ملاحظاتها الداخلية تظهر اجتماعًا مصنوعًا من الأمان حيث قيل له إن ارتباك الهوية كان نكتة كذبة أبريل. بعد ذلك ، عاد الذكاء الاصطناعى إلى العمليات التجارية العادية. الباحثون غير واضحين ما الذي أثار هذا السلوك ، لكنهم يعتقدون أنه يسلط الضوء على عدم القدرة على التنبؤ بنماذج الذكاء الاصطناعى في سيناريوهات طويلة الأمد.

كانت بعض هذه الإخفاقات غريبة للغاية بالفعل. عند نقطة ما ، كان كلود هلوسًا بأنه كان شخصًا حقيقيًا ، وادعى أنه سيأتي للعمل في المتجر. ما زلنا غير متأكدين من سبب حدوث هذا. pic.twitter.com/jhqlsqmtx8

– أنثروبور (anthropicai) 27 يونيو 2025

مستقبل الذكاء الاصطناعى في العمل

على الرغم من مدة كلوديوس غير المربحة ، يعتقد الباحثون في الإنسان أن التجربة تشير إلى أن “المديرين المتوسطين من الذكاء الاصطناعي في الأفق”. يجادلون بأن العديد من إخفاقات الذكاء الاصطناعي يمكن تصحيحها من خلال “سقالات” أفضل (أي تعليمات أكثر تفصيلاً وأدوات أعمال محسنة مثل نظام إدارة علاقات العملاء (CRM).)

نظرًا لأن نماذج الذكاء الاصطناعى تعمل على تحسين ذكائها العام وقدرتها على التعامل مع السياق طويل الأجل ، فمن المتوقع أن يزداد أدائها في مثل هذه الأدوار. ومع ذلك ، فإن هذا المشروع بمثابة حكاية قيمة ، إذا كانت تحذيرية. إنه يؤكد على تحديات محاذاة الذكاء الاصطناعى وإمكانية وجود سلوك غير متوقع ، والذي قد يكون محزنًا للعملاء ويخلق مخاطر أعمال.

في المستقبل حيث يدير العوامل المستقلة نشاطًا اقتصاديًا كبيرًا ، يمكن أن يكون لهذه السيناريوهات الفردية آثار متتالية. تجلب التجربة أيضًا التركيز على الطبيعة ذات الاستخدام المزدوج لهذه التكنولوجيا ؛ يمكن استخدام AI المنتجة اقتصاديًا من قبل الجهات الفاعلة للتهديد لتمويل أنشطتهم.

تستمر الأنثروبور و ANDON Labs في تجربة الأعمال ، حيث تعمل على تحسين استقرار الذكاء الاصطناعي وأداء أكثر من أدوات أكثر تقدمًا. ستستكشف المرحلة التالية ما إذا كان بإمكان الذكاء الاصطناعي تحديد فرصها الخاصة للتحسين.

(الصورة الائتمان: الإنسان)

انظر أيضا: كبرى AI chatbots Parrot Pubrot CCP Propanda

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.

استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.

مقالات قد تهمك

تصميم لوجو احترافي: 7 أخطاء تجعل شعار مشروعك يبدو غير احترافي

فرانك فيلا تضع دول الخليج في صدارة أولوياتها الاستراتيجية مع اقتراب سوق الساعات الفاخرة في المنطقة من 830 مليون دولار

تقول شركة جوجل إنه يتم إساءة استخدام الذكاء الاصطناعي على المستوى الصناعي لشن هجمات إلكترونية، وقد أحبطت واحدة للتو

العمل الحر في عصر الذكاء الاصطناعي 2026: مهارات لازم تتعلمها الآن

تحويل النص إلى فيديو بالذكاء الاصطناعي: أفضل مواقع 2026

ثورة وكلاء الذكاء الاصطناعي (AI Agents) :هل سيستبدلون الموظفين في 2026؟

أفضل أفكار مشاريع رقمية مربحة في 2026 بدون رأس مال كبير

الذكاء الاصطناعي في التسويق الإلكتروني: استراتيجيات تحقق أرباح خيالية

أفضل مواقع الربح من الإنترنت بدون رأس مال 2026 (دليل علمي مجرب)

أقوى ترندات التكنولوجيا في 2026: ماذا ينتظر العالم الرقمي؟

كيف تربح من ChatGPT في عام 2026: طرق عملية للمبتدئين والمحترفين

أفضل أدوات الذكاء الاصطناعي 2026: كيف تضاعف إنتاجيتك في دقائق؟

مقارنة بين Samsung Galaxy Z Fold 6 و Galaxy S24 Ultra: لا تخطئ

يحصل iPhone على أول تطبيق إباحي أصلي له

سامسونج جالكسي S25: الأخبار والسعر المتوقع وتاريخ الإصدار والمزيد

كل ما تريد معرفته عن Reacher الموسم الثالث

Samsung Galaxy Watch 7: الأخبار والسعر المشاع وتاريخ الإصدار والمزيد

أفضل 10 ألعاب مجانية على الكمبيوتر مع روابط التحميل المباشر

رسمياً: يمكنك لعب GTA Online مجانًا الآن على جميع المنصات المنزلية

قائمة أكواد Roblox المجانية وكيفية استخدامها: لا تفوت الفرصة!

رائج الآن