ضمن فعاليات مؤتمر GTC الذي يُعقد للمرة الأولى حضوريًا بعد غياب 5 سنوات، إذ لم تعقده إنفيديا منذ إطلاق البطاقات الرسومية المستندة إلى معمارية (Volta)، بدأ جين-سن هوانغ، المدير التنفيذي لشركة إنفيديا، كلمته الافتتاحية في مؤتمر GTC 2024 بإعلان مجموعة من المنتجات والتقنيات الجديدة التي عملت عليها الشركة بجد خلال السنوات القليلة الماضية.
ويعد التحدي الحقيقي أمام إنفيديا أن تكرر نجاح معمارية Hopper، لذلك، تتجه جميع الأنظار إلى معمارية Blackwell المقرر إطلاقها في وقت لاحق من عام 2024.
ويأتي اسم معمارية بلاكويل (Blackwell) من اسم الدكتور ديفيد هارولد بلاكويل، عالم الرياضيات والإحصاء الأمريكي، ومن أهم إنجازاته تأليف أول كتاب مدرسي للإحصاء البايزي.
وتمثل بنية معمارية Blackwell عودة قوية لإنفيديا؛ إذ تسعى الشركة إلى تعزيز أداء مسرعات مراكز البيانات والحوسبة العالية الأداء (HPC) لتحسين مستوى الذكاء الاصطناعي. وقد حققت إنفيديا نجاحًا كبيرًا مع معمارية Hopper ومعمارية Ampere، وتهدف بمعمارية Blackwell إلى تقديم المزايا نفسها، ولكن مع المزيد من النوى وحجم الذاكرة المضاعف وعدد هائل من الترانزستورات.
وبالعودة إلى الحدث الأهم، أعلن المدير التنفيذي جين-سون هوانغ معمارية Blackwell ووحدة معالجة الرسوم B200، اللتين تصفهما إنفيديا بأنهما الجيل القادم من وحدات معالجة الرسوم الخاصة بمراكز البيانات والذكاء الاصطناعي وستوفران قفزة هائلة في القدرة الحوسبية للأجيال القادمة.
وتعد وحدة معالجة الرسوم B200 خليفة وحدتي H100 و H200، كما سيكون هناك وحدة معالجة الرسوم GB200 Superchip، التي يوحي اسمها بأنها ستحتفظ بهندسة وحدة المعالجة المركزية Grace CPU وستقترن أيضًا بوحدة معالجة الرسوم من معمارية Blackwell.
ويُتوقع أن تكشف إنفيديا عن وحدة معالجة الرسوم GB202 من معمارية Blackwell في سلسلة بطاقات RTX 50 في عام 2025 وستكون مختلفة تمامًا عن قوالب مراكز البيانات من ناحية التصميم.
وقد تضاعف عدد الترانزستورات في وحدة معالجة الرسوم B200 مقارنة بوحدة معالجة الرسوم H100 الحالية بأكثر من الضعف، وهذا يعني أن وحدة معالجة الرسوم B200 تحتوي على 208 مليارات ترانزستور مقابل 80 مليار ترانزستور في وحدتي معالجة الرسوم H100 و H200.
كما أنها توفر أداءً حوسبيًا قدره 20 بيتافلوب من العمليات في الثانية (PFLOP) من أداء الذكاء الاصطناعي مع وحدة معالجة الرسوم B200، في حين تأتي وحدة معالجة الرسوم H100 بأداء حوسبي قدره 4 بيتافلوب من العمليات في الثانية. وستتميز بذاكرة HBM3e بحجم قدره 192 جيجابايت مع عرض نطاق ترددي للذاكرة يصل إلى 8 تيرابايت/ الثانية.
ومن المهم توضيح أن وحدة معالجة الرسوم Blackwell B200 ليست بطاقة رسومية واحدة بالمعنى التقليدي، فإنها بدلًا من ذلك، تتكون من قالبين متصلين بإحكام، وهما يعملان كوحدة معالجة رسوم موحدة وفقًا لشركة إنفيديا.
وربطت إنفيديا القالبين بواجهة NV-HBI بسرعة اتصال تصل إلى 10 تيرابايت/ الثانية لضمان عملهما بسرعة مثالية كرقاقة واحدة.
ويعود سبب اعتماد إنفيديا على رقاقة مزدوجة هو اعتمادها على دقة التصنيع البالغة 4 نانومتر (NP) من TSMC، وهي نسخة محسنة من دقة التصنيع البالغة 4N المستخدمة في وحدة معالجة الرسوم الحالية H100.
ويبدو أن دقة التصنيع البالغة 4 نانومتر (NP) لا تقدم تحسنًا كبيرًا في كثافة الترانزستورات، مما يعني أنه إذا كنت تريد رقاقة أكثر قوة، فأنت بحاجة إلى طريقة لزيادة حجمها. وهذا أمر صعب؛ لأن وحدة معالجة الرسوم H100 كانت في الأساس رقاقة بحجم هائل يبلغ قالبها قرابة 814 ملم مربع، إذ يُعد الحد الأقصى النظري لقالب الرقاقة قرابة 858 ملم مربع.
ولذلك اعتمدت إنفيديا على إدماج وحدتي معالجة الرسوم B200 في ذاكرة عرض النطاق الترددي العالي (HBM3e)، إذ يحتوي كل قالب على أربع وحدات تخزين متراكمة HMB3e بحجم قدره 24 جيجابايت لكل واحدة منها، مع عرض نطاق ترددي للذاكرة يصل إلى 1 تيرابايت/ الثانية لكل واحدة منها، بالإضافة إلى واجهة الذاكرة التي تبلغ 1024 بتًا.
وعند رؤية تصميم وحدة معالجة الرسوم H100 يلاحظ أنها تحتوي على 6 وحدات تخزين متراكمة HBM3 بحجم قدره 16 جيجابايت لكل واحدة منها، مما يعني أن جزءًا كبيرًا من مساحة رقاقة H100 مخصصة لوحدات تحكم الذاكرة الست. وبتقليل عدد واجهات ذاكرة HBM3e إلى أربع واجهات لكل قالب ثم ربط القالبين معًا، يمكن لشركة إنفيديا تخصيص مساحة صغيرة لواجهات الذاكرة.
وتتوفر عدة إصدارات مختلفة من معمارية Blackwell، ومنها ثلاثة خوادم رئيسية:
الخيار الأول GB200 Superchip: هو أكبر وأسرع خادم يحتوي على معالجين رسوميين B200 ووحدة المعالجة المركزية Grace، بمعدل استهلاك للطاقة يصل إلى 2700 واط، ويوفر أداءً حوسبيًا قدره 20 بيتافلوب من العمليات في الثانية (PFLOP) من أداء الذكاء الاصطناعي.
الخيار الثاني HGX B200 Supercomputer: يعتمد على استخدام 8 وحدات لمعالجة الرسوم B200 مع معالجي x86 في خادم واحد، بمعدل استهلاك للطاقة يصل إلى 1000 واط لكل وحدة من وحدات معالجة الرسوم B200، وهو يوفر أداءً حوسبيًا قدره 18 بيتافلوب من العمليات في الثانية (PFLOP) من أداء الذكاء الاصطناعي.
الخيار الثالث HGX B100 Supercomputer: هذا الخادم يأتي مع وحدة المعالجة المركزية x86 و 8 وحدات لمعالجة الرسوم B100، ليكون متوافقًا تمامًا مع البنية التحتية الحالية لخوادم HGX H100 إذ يمكن استبدال وحدات معالجة الرسوم المستندة إلى معمارية Blackwell بها، ولهذا، يأتي معدل استهلاك الطاقة الذي يصل إلى 700 واط، بأداء حوسبي قدره 14 بيتافلوب من العمليات في الثانية (PFLOP) من أداء الذكاء الاصطناعي.
من المهم ملاحظة أن كل خادم من هذه الخوادم الثلاثة يأتي بعرض نطاق ترددي يصل إلى 8 تيرابايت/ الثانية لذاكرة HBM3e لكل وحدة من وحدات معالجة الرسوم. لذلك يبدو أن الاختلاف يقتصر فقط على معدل استهلاك الطاقة، إلى جانب ترددات نويات معالج الرسوم وربما عدد النويات أيضًا.
أخيرًا، لم تكشف إنفيديا بعد عن أي تفاصيل حول عدد نوى CUDA في أي وحدة من وحدات معالجة الرسوم المستندة إلى معمارية Blackwell.