أمضت Zyphra وAMD وIBM عامًا في اختبار ما إذا كانت وحدات معالجة الرسوميات والمنصة الخاصة بـ AMD يمكنها دعم التدريب على نماذج الذكاء الاصطناعي على نطاق واسع، وكانت النتيجة ZAYA1. هذه النتيجة تمثل نقطة تحول في عالم الذكاء الاصطناعي، حيث تقدم بديلاً قوياً لوحدات معالجة الرسوميات من NVIDIA، وتفتح آفاقًا جديدة للشركات والمؤسسات التي تسعى إلى تطوير قدراتها في هذا المجال.
ZAYA1: تحدي هيمنة NVIDIA في عالم الذكاء الاصطناعي
في شراكة استراتيجية، قامت الشركات الثلاث بتدريب ZAYA1 – الذي يوصف بأنه أول نموذج أساسي رئيسي لمزيج الخبراء مبني بالكامل على وحدات معالجة الرسوميات والشبكات من AMD – والذي يعتبرونه دليلاً على أن السوق لا يتعين عليه الاعتماد على NVIDIA لتوسيع نطاق الذكاء الاصطناعي. هذا الإنجاز يمثل خطوة جريئة نحو تنويع مصادر التكنولوجيا وتقليل الاعتماد على بائع واحد، وهو أمر بالغ الأهمية في سوق يتسم بالتنافسية الشديدة.
تم تدريب النموذج على شرائح Instinct MI300X من AMD، وشبكات Pensando، وبرنامج ROCm، وكلها تعمل عبر البنية التحتية لـ IBM Cloud. ما هو ملحوظ هو كيف يبدو الإعداد تقليديًا. بدلاً من الأجهزة التجريبية أو التكوينات الغامضة، قامت Zyphra ببناء النظام مثل أي مجموعة مؤسسية – فقط بدون مكونات NVIDIA.
أداء ZAYA1: منافسة قوية للنماذج الرائدة
تقول Zyphra إن أداء ZAYA1 على قدم المساواة مع النماذج المفتوحة الراسخة في الاستدلال والرياضيات والبرمجة، بل ويتفوق عليها في بعض المجالات. هذا الأداء المتميز يجعله خيارًا جذابًا للشركات التي تبحث عن حلول فعالة من حيث التكلفة دون التضحية بالجودة. بالنسبة للشركات المحبطة بسبب القيود المفروضة على العرض أو ارتفاع أسعار وحدة معالجة الرسومات، فإن هذا يرقى إلى شيء نادر: خيار ثانٍ لا يتطلب التنازل عن القدرة.
كيف خفضت Zyphra التكاليف باستخدام وحدات معالجة الرسوميات AMD؟
تتبع معظم المؤسسات نفس المنطق عند التخطيط لميزانيات التدريب: سعة الذاكرة، وسرعة الاتصال، وأوقات التكرار المتوقعة أكثر أهمية من الإنتاجية النظرية الأولية. توفر ذاكرة MI300X ذات النطاق الترددي العالي البالغة 192 جيجابايت لكل وحدة معالجة رسومات للمهندسين بعض المساحة للتنفس، مما يسمح بإجراء التدريب المبكر دون اللجوء فورًا إلى التوازي الثقيل. وهذا يميل إلى تبسيط المشاريع التي تعتبر هشة وتستغرق وقتًا طويلاً في ضبطها.
قامت Zyphra ببناء كل عقدة باستخدام ثماني وحدات معالجة رسوميات MI300X متصلة عبر InfinityFabric وإقران كل واحدة ببطاقة شبكة Pollara الخاصة بها. تعالج شبكة منفصلة عمليات قراءة مجموعة البيانات وفحصها. إنه تصميم بسيط، ولكن يبدو أن هذا هو الهدف؛ كلما كان تخطيط الأسلاك والشبكة أبسط، انخفضت تكاليف التبديل وأصبح من الأسهل الحفاظ على ثبات أوقات التكرار.
ZAYA1: تفاصيل النموذج وقدراته
قاعدة ZAYA1 تنشط 760 مليون معلمة من إجمالي 8.3 مليار وتم تدريبها على 12 تريليون رمز على ثلاث مراحل. تعتمد البنية على الاهتمام المضغوط، ونظام توجيه محسّن لتوجيه الرموز المميزة إلى الخبراء المناسبين، والقياس المتبقي الخفيف للحفاظ على استقرار الطبقات الأعمق.
يستخدم النموذج مزيجًا من Muon وAdamW. ولجعل Muon فعالاً على أجهزة AMD، قامت Zyphra بدمج النوى وتقليص حركة الذاكرة غير الضرورية حتى لا يهيمن المُحسِّن على كل تكرار. تمت زيادة أحجام الدفعات بمرور الوقت، لكن ذلك يعتمد بشكل كبير على وجود خطوط تخزين يمكنها تسليم الرموز المميزة بسرعة كافية.
ZAYA1 يتفوق على منافسيه
كل هذا يؤدي إلى نموذج ذكاء اصطناعي تم تدريبه على أجهزة AMD التي تتنافس مع أقرانها الأكبر مثل Qwen3-4B، وGemma3-12B، وLlama-3-8B، وOLMoE. تتمثل إحدى ميزات هيكل MoE في أنه يتم تشغيل جزء صغير فقط من النموذج في وقت واحد، مما يساعد على إدارة ذاكرة الاستدلال وتقليل تكلفة الخدمة.
على سبيل المثال، يستطيع البنك تدريب نموذج خاص بمجال معين لإجراء التحقيقات دون الحاجة إلى التوازي المعقد في وقت مبكر. توفر المساحة العلوية لذاكرة جهاز MI300X مساحة للمهندسين للتكرار، بينما يعمل الاهتمام المضغوط لـ ZAYA1 على تقليل وقت التعبئة المسبقة أثناء التقييم.
ROCm و AMD: نحو بيئة تطوير متكاملة
لم تخف Zyphra حقيقة أن نقل سير العمل الناضج المستند إلى NVIDIA إلى ROCm يتطلب عملاً. بدلاً من نقل المكونات بشكل أعمى، أمضى الفريق وقتًا في قياس كيفية عمل أجهزة AMD وإعادة تشكيل أبعاد النموذج وأنماط GEMM وأحجام الدفعات الصغيرة لتناسب نطاقات الحوسبة المفضلة لـ MI300X.
يعمل InfinityFabric بشكل أفضل عندما تشارك جميع وحدات معالجة الرسوميات الثمانية في العقدة في مجموعات، ويميل Pollara إلى الوصول إلى ذروة الإنتاجية مع رسائل أكبر، لذا يقوم الدمج بحجم Zyphra بالتخزين المؤقت وفقًا لذلك. يعتمد التدريب طويل السياق، من 4k إلى 32k رمزًا، على الانتباه الحلقي للتسلسلات المجزأة وانتباه الشجرة أثناء فك التشفير لتجنب الاختناقات.
ضمان استقرار التدريب على المدى الطويل
وظائف التدريب التي تستمر لأسابيع نادرا ما تعمل بشكل مثالي. تقوم خدمة Aegis من Zyphra بمراقبة السجلات ومقاييس النظام، وتحدد حالات الفشل مثل مواطن الخلل في NIC أو رموز ECC، وتتخذ إجراءات تصحيحية مباشرة تلقائيًا. قام الفريق أيضًا بزيادة مهلات RCCL لمنع انقطاعات الشبكة القصيرة من قتل الوظائف بأكملها.
يتم توزيع نقاط التفتيش عبر جميع وحدات معالجة الرسوميات بدلاً من فرضها عبر نقطة تفتيش واحدة. تشير Zyphra إلى عمليات حفظ أسرع بأكثر من عشرة أضعاف مقارنةً بالأساليب الساذجة، مما يؤدي بشكل مباشر إلى تحسين وقت التشغيل وتقليل عبء عمل المشغل.
مستقبل حوسبة الذكاء الاصطناعي: خيارات متعددة
يرسم التقرير خطًا نظيفًا بين النظام البيئي لـ NVIDIA وما يعادله من AMD: NVLINK vs InfinityFabric، وNCCL vs RCCL، وcuBLASLT مقابل hipBLASLT، وما إلى ذلك. يجادل المؤلفون بأن حزمة AMD أصبحت الآن ناضجة بدرجة كافية لتطوير نموذج جاد على نطاق واسع.
لا يشير أي من هذا إلى أنه يجب على المؤسسات تمزيق مجموعات NVIDIA الحالية. المسار الأكثر واقعية هو الاحتفاظ بـ NVIDIA للإنتاج مع استخدام AMD للمراحل التي تستفيد من سعة الذاكرة لوحدات معالجة الرسوميات MI300X وانفتاح ROCm. إنه ينشر مخاطر الموردين ويزيد من إجمالي حجم التدريب دون انقطاع كبير.
كل هذا يقودنا إلى مجموعة من التوصيات: التعامل مع شكل النموذج على أنه قابل للتعديل وليس ثابتًا؛ تصميم شبكات حول العمليات الجماعية التي سيستخدمها تدريبك بالفعل؛ بناء نظام التسامح مع الأخطاء الذي يحمي ساعات عمل وحدة معالجة الرسوميات بدلاً من مجرد تسجيل حالات الفشل؛ وتحديث نقاط التفتيش حتى لا تخرج عن إيقاع التدريب.
إنه ليس بيانًا، بل هو مجرد استنتاجنا العملي مما تعلمته Zyphra وAMD وIBM من خلال تدريب نموذج كبير من MoE الذكاء الاصطناعي على وحدات معالجة الرسوميات AMD. بالنسبة للمؤسسات التي تتطلع إلى توسيع قدرات الذكاء الاصطناعي دون الاعتماد على بائع واحد فقط، فمن المحتمل أن يكون هذا مخططًا مفيدًا.
أنظر أيضا: تلتزم Google بتوفير بنية أساسية إضافية للذكاء الاصطناعي بمقدار 1000 مرة خلال السنوات الأربع إلى الخمس القادمة.
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. يعد هذا الحدث الشامل جزءًا من TechEx ويقام في مكان مشترك مع الأحداث التكنولوجية الرائدة الأخرى بما في ذلك معرض الأمن السيبراني. انقر هنا لمزيد من المعلومات.
