حصل Claude 3.5 Sonnet المثير للإعجاب بالفعل من Anthropic على تعزيز كبير في الأداء يوم الثلاثاء حيث طرحت شركة AI الناشئة نسخة محسنة ومحدثة من النموذج جنبًا إلى جنب مع Claude 3.5 Haiku الجديد خفيف الوزن. يتضمن تحديث Sonnet ميزة تجريبية عامة تمنح الذكاء الاصطناعي التحكم الأساسي في الكمبيوتر الذي يعمل عليه.
كان Claude 3.5 Sonnet بالفعل رائدًا في الأداء عندما يتعلق الأمر بمهام البرمجة، لكن الإصدار الجديد يُظهر تحسينات كبيرة شاملة مقارنة بسابقه ويتفوق بشكل ثابت على كل من Gemini 1.5 وGPT-4o في مجموعة متنوعة من معايير الصناعة. كان Gemini 1.5 Pro هو النموذج الوحيد الذي تفوق على 3.5 Sonnet الجديد في أي اختبار، وقد فعل ذلك وفقًا لمعيار MATH.
إن جهاز Haiku 3.5 الجديد ليس مترهلًا أيضًا، على الرغم من صغر حجمه. ومن المقرر إطلاقه في وقت لاحق من هذا الشهر، حيث يتفوق 3.5 Haiku على Claude 3.0 Opus، وهو أكبر طراز من الجيل الأخير للشركة. مثل نسخته الأكبر، يتمتع Haiku الجديد بمهارة فائقة في مهام البرمجة، حيث سجل 40.6% في اختبار SWE-bench Verified – وهو أعلى من كل من GPT-40 و3.5 Sonnet الأصلية.
والأمر الأكثر إثارة للإعجاب هو أن Claude 3.5 Sonnet الجديد يمكنه الآن التفاعل مع تطبيقات سطح المكتب عبر واجهة برمجة التطبيقات “Computer Use”. يمكن للذكاء الاصطناعي إنشاء ضغطات المفاتيح ونقرات الماوس والحركات اللازمة لمحاكاة المستخدم البشري. وتسارع الشركة إلى الإشارة إلى أن النظام حاليًا تجريبي تمامًا وعرضة للأخطاء. الغرض الأساسي من الإصدار التجريبي العام هو الحصول على تعليقات من المطورين لتحسين أداء واجهة برمجة التطبيقات بسرعة.
“لقد قمنا بتدريب كلود على رؤية ما يحدث على الشاشة ثم استخدام أدوات البرمجيات المتاحة لتنفيذ المهام”، كتب Anthropic في منشور بالمدونة. “عندما يكلف أحد المطورين كلود باستخدام أحد برامج الكمبيوتر ويمنحه الوصول اللازم، ينظر كلود إلى لقطات شاشة لما هو مرئي للمستخدم، ثم يحسب عدد وحدات البكسل عموديًا أو أفقيًا التي يحتاجها لتحريك المؤشر من أجل النقر. المكان الصحيح.”
إنه عميل للذكاء الاصطناعي، في الأساس. أي أنه ذكاء اصطناعي يمكنه أتمتة العمليات البرمجية الأخرى، سواء كان ذلك توليد عملاء محتملين للتسويق وتأهيلهم، أو الكشف عن الأنماط والاتجاهات في البيانات الطبية، أو ببساطة الانتقال إلى موقع ويب معين وملء النموذج الذي تحتاجه. فكر فيها كإصدار أكثر تقدمًا من أنظمة أتمتة العمليات الروبوتية الحالية.
تستشهد الشركة بـ Asana وCanva وCognition وDoorDash وReplit وThe Browser Company باعتبارها من أوائل الشركات التي تبنّت الميزة الجديدة. Replit، على سبيل المثال، يستخدم التحكم في الكمبيوتر “لتطوير ميزة رئيسية تقوم بتقييم التطبيقات أثناء إنشائها لمنتج Replit Agent الخاص بها”، وفقًا للإعلان.
لا داعي للقلق بشأن استخدام الذكاء الاصطناعي لـ Skynet بالكامل (حتى الآن)، كما يوضح Anthropic. وقال متحدث باسم الأنثروبيك: “يظل البشر مسيطرين من خلال تقديم مطالبات محددة توجه تصرفات كلود، مثل استخدام البيانات من جهاز الكمبيوتر الخاص بي وعبر الإنترنت لملء هذا النموذج”. تك كرانش. “يقوم الأشخاص بتمكين الوصول وتقييد الوصول حسب الحاجة. يقوم كلود بتقسيم مطالبات المستخدم إلى أوامر الكمبيوتر (على سبيل المثال، تحريك المؤشر، والنقر، والكتابة) لإنجاز هذه المهمة المحددة.
تعترف Anthropic أيضًا بأنه يمكن إساءة استخدام التحكم في الكمبيوتر لإنشاء بريد عشوائي أو نشر معلومات مضللة أو ارتكاب عمليات احتيال. ردًا على ذلك، قامت الشركة بتطوير مصنفات جديدة تحدد متى يتم استخدام واجهة برمجة التطبيقات (API) وما إذا كان هذا الاستخدام “يسبب ضررًا”.