تعتمد مجموعة ANT على أشباه الموصلات الصينية الصينية لتدريب نماذج الذكاء الاصطناعي لتقليل التكاليف وتقليل الاعتماد على التكنولوجيا الأمريكية المقيدة ، وفقًا للأشخاص المطلعين على الأمر.
استخدمت الشركة المملوكة لألبابا رقائق من الموردين المحليين ، بما في ذلك أولئك الذين يرتبطون بتقنيات الوالدين والأبابا وهويوي لتدريب نماذج اللغة الكبيرة باستخدام مزيج من الخبراء (MOE). كانت النتائج قابلة للمقارنة مع تلك التي تم إنتاجها مع رقائق H800 من NVIDIA ، كما تدعي المصادر. بينما تستمر Ant في استخدام رقائق Nvidia لبعض تطوير AI ، قال أحد المصادر إن الشركة تتحول بشكل متزايد إلى بدائل من AMD وصانعي الرقائق الصينيين لأحدث نماذجها.
يشير التطوير إلى مشاركة ANT الأعمق في سباق الذكاء الاصطناعي المتزايد بين شركات التكنولوجيا الصينية والولايات المتحدة ، خاصة وأن الشركات تبحث عن طرق فعالة من حيث التكلفة لتدريب النماذج. تعكس التجربة مع الأجهزة المحلية جهدًا أوسع بين الشركات الصينية للعمل حول قيود التصدير التي تمنع الوصول إلى رقائق الراقية مثل Nvidia's H800 ، والتي ، على الرغم من أنها ليست الأكثر تقدماً ، لا تزال واحدة من وحدات معالجة الرسومات الأكثر قوة المتاحة للمؤسسات الصينية.
نشرت ANT ورقة بحثية تصف عملها ، تفيد بأن نماذجها ، في بعض الاختبارات ، كانت أفضل من تلك التي طورتها Meta. أخبار بلومبرج، التي أبلغت في البداية عن الأمر ، لم تتحقق من نتائج الشركة بشكل مستقل. إذا كانت النماذج تؤدي كما هو موضح ، فقد تمثل جهود Ant خطوة إلى الأمام في محاولة الصين لخفض تكلفة تشغيل تطبيقات الذكاء الاصطناعي وتقليل الاعتماد على الأجهزة الأجنبية.
تقسم نماذج MOE المهام إلى مجموعات بيانات أصغر يتم التعامل معها بواسطة مكونات منفصلة ، وقد اكتسبت اهتمامًا بين باحثو الذكاء الاصطناعي وعلماء البيانات. تم استخدام هذه التقنية من قبل Google و Startup المستندة إلى Hangzhou ، Deepseek. يشبه مفهوم MOE وجود فريق من المتخصصين ، كل جزء من مهمة لجعل عملية إنتاج النماذج أكثر كفاءة. رفضت Ant التعليق على عملها فيما يتعلق بمصادر الأجهزة.
يعتمد نماذج تدريب MOE على وحدات معالجة الرسومات عالية الأداء والتي يمكن أن تكون مكلفة للغاية بالنسبة للشركات الأصغر لاكتسابها أو استخدامها. ركزت أبحاث Ant على تقليل حاجز التكلفة. عنوان الورقة ملاحق بهدف واضح: نماذج التحجيم “بدون وحدات معالجة الرسومات الممتازة”. (علامات اقتباسنا)
الاتجاه الذي اتخذته ANT واستخدام MOE لتقليل تكاليف التدريب على النقيض من نهج NVIDIA. قال مسؤول الرئيس التنفيذي Jensen Huang إن الطلب على قوة الحوسبة سيستمر في النمو ، حتى مع إدخال نماذج أكثر كفاءة مثل Deepseek's R1. وجهة نظره هي أن الشركات ستبحث عن رقائق أكثر قوة لدفع نمو الإيرادات ، بدلاً من أن تهدف إلى خفض التكاليف ببدائل أرخص. لا تزال استراتيجية Nvidia تركز على بناء وحدات معالجة الرسومات مع المزيد من النوى والترانزستورات والذاكرة.
وفقًا لورقة ANT Group ، فإن تدريب Trillion Tokens-الوحدات الأساسية لنماذج البيانات التي تستخدمها نماذج AI للتعلم-تكلف حوالي 6.35 مليون يوان (حوالي 880،000 دولار) باستخدام أجهزة تقليدية عالية الأداء. خفضت طريقة التدريب المحسنة للشركة تلك التكلفة إلى حوالي 5.1 مليون يوان باستخدام رقائق التمييز المنخفضة.
قالت Ant إنها تخطط لتطبيق نماذجها المنتجة بهذه الطريقة-Ling-Plus و Ling-Lite-على حالات استخدام الذكاء الاصطناعى الصناعي مثل الرعاية الصحية والتمويل. في وقت سابق من هذا العام ، استحوذت الشركة على HAODF.com ، وهي منصة طبية صينية عبر الإنترنت ، لمزيد من طموح ANT لنشر الحلول القائمة على الذكاء الاصطناعى في الرعاية الصحية. كما أنه يدير خدمات منظمة العفو الدولية الأخرى ، بما في ذلك تطبيق مساعد افتراضي يسمى Zhixiaobao ومنصة استشارية مالية تعرف باسم Maxiaocai.
“إذا وجدت نقطة واحدة من الهجوم للتغلب على أفضل ما في العالم الكونغ فو قال روبن يو ، كبير مسؤولي التكنولوجيا في شركة الذكاء الاصطناعى في بكين ، شينغشانج تك:
جعلت ANT النماذج مفتوحة المصدر. لدى Ling-Lite 16.8 مليار معلمة-الإعدادات التي تساعد في تحديد كيفية عمل النموذج-بينما يحتوي Ling-Plus على 290 مليار. للمقارنة ، تشير التقديرات إلى أن GPT-4.5 مغلقة المصدر لها حوالي 1.8 تريليون معلمة ، وفقًا لـ مراجعة تكنولوجيا معهد ماساتشوستس للتكنولوجيا.
على الرغم من التقدم ، لاحظت ورقة Ant أن نماذج التدريب لا تزال صعبة. أدت التعديلات الصغيرة على هيكل الأجهزة أو النموذج أثناء التدريب النموذجي في بعض الأحيان إلى أداء غير مستقر ، بما في ذلك المسامير في معدلات الخطأ.
(الصورة من قبل Unsplash)
انظر أيضًا: Deepseek V3-0324 يتصدر نماذج الذكاء الاصطناع
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.