الذكاء الاصطناعي الوكيل (Agentic AI) يمثل نقلة نوعية في عالم الذكاء الاصطناعي، متجاوزًا قدرات روبوتات الدردشة التقليدية نحو معالجة مهام وسير عمل أكثر تعقيدًا. هذا التطور يتطلب بنية ذاكرة جديدة قادرة على التعامل مع الكم الهائل من البيانات التي يحتاجها الوكيل لاتخاذ قرارات مستنيرة. ومع تزايد حجم النماذج الأساسية وارتفاع تكلفة الحفاظ على “الذاكرة طويلة المدى”، تواجه المؤسسات تحديات كبيرة في توسيع نطاق هذه الأنظمة.
تحديات توسيع نطاق الذاكرة في الذكاء الاصطناعي الوكيل
تعتمد النماذج اللغوية الكبيرة، التي تشكل أساس الذكاء الاصطناعي الوكيل، على آلية تسمى ذاكرة التخزين المؤقت KV (Key-Value) لتذكر المعلومات السابقة في المحادثة أو سير العمل. هذه الذاكرة ضرورية لتجنب إعادة حساب كل شيء من البداية في كل مرة يتم فيها توليد استجابة جديدة. لكن مع زيادة طول التسلسل (sequence length) – أي كمية المعلومات التي يحتاج الوكيل لتذكرها – يرتفع حجم ذاكرة التخزين المؤقت KV بشكل كبير، مما يضع ضغطًا هائلاً على البنية التحتية الحالية.
الخيار التقليدي يقتصر على مكانين لتخزين هذه الذاكرة:
- ذاكرة HBM (High Bandwidth Memory) الموجودة على وحدة معالجة الرسوميات (GPU): هذه الذاكرة سريعة جدًا، لكنها باهظة الثمن وغير عملية لتخزين كميات كبيرة من البيانات.
- وحدة تخزين بطيئة للأغراض العامة: هذا الخيار أرخص، لكنه يؤدي إلى تأخيرات كبيرة (latency) تجعل التفاعلات في الوقت الفعلي مع الوكيل غير ممكنة.
هذا التفاوت في الأداء والتكلفة يخلق عنق زجاجة يعيق تطوير ونشر الذكاء الاصطناعي الوكيل على نطاق واسع.
NVIDIA و منصة تخزين ذاكرة السياق الاستدلالي (ICMS)
لمعالجة هذه المشكلة، قدمت NVIDIA منصة تخزين ذاكرة السياق الاستدلالي (ICMS) كجزء من بنية Rubin الجديدة. تهدف هذه المنصة إلى توفير طبقة تخزين جديدة مصممة خصيصًا لتلبية احتياجات الذكاء الاصطناعي الوكيل.
وفقًا لـ Jensen Huang، الرئيس التنفيذي لـ NVIDIA، فإن “الذكاء الاصطناعي يحدث ثورة في نظام الحوسبة بأكمله، والآن في مجال التخزين”. وأضاف أن الذكاء الاصطناعي لم يعد مجرد روبوتات دردشة بسيطة، بل أصبح “متعاونين أذكياء يفهمون العالم المادي، ويفكرون عبر آفاق طويلة، ويظلون مرتكزين على الحقائق، ويستخدمون الأدوات للقيام بعمل حقيقي، ويحتفظون بالذاكرة القصيرة والطويلة المدى.”
كيف تعمل منصة ICMS؟
تعتمد منصة ICMS على فهم طبيعة ذاكرة التخزين المؤقت KV. هذه الذاكرة هي بيانات “مشتقة” – أي أنها ليست البيانات الأصلية، بل هي نتيجة معالجة البيانات الأصلية. وهي ضرورية للأداء السريع، ولكنها لا تتطلب نفس مستوى المتانة الذي تتطلبه بيانات المؤسسات الهامة مثل السجلات المالية.
بدلاً من الاعتماد على التسلسل الهرمي التقليدي (GPU HBM -> RAM -> التخزين المشترك)، تقدم ICMS طبقة “G3.5” – وهي طبقة فلاش متصلة بشبكة إيثرنت مصممة خصيصًا للاستدلال السريع. هذه الطبقة تقع بين ذاكرة HBM ووحدة التخزين المشتركة، مما يوفر توازنًا مثاليًا بين السرعة والتكلفة.
المزايا التشغيلية لمنصة ICMS
- زيادة الإنتاجية: من خلال الاحتفاظ بالسياق ذي الصلة في طبقة G3.5، يمكن للنظام “إعادة وضع” الذاكرة إلى وحدة معالجة الرسوميات بسرعة قبل الحاجة إليها. هذا يقلل من وقت الخمول لوحدة معالجة الرسوميات، مما يؤدي إلى زيادة كبيرة في إنتاجية الرموز المميزة (TPS) – تصل إلى 5 أضعاف في بعض الحالات.
- كفاءة الطاقة: تزيل البنية الجديدة الحمل الزائد لبروتوكولات التخزين التقليدية، مما يوفر كفاءة طاقة أفضل بمقدار 5 مرات.
- توسيع نطاق الذكاء الاصطناعي الوكيل: توفر المنصة بيتابايت من السعة المشتركة لكل حجرة، مما يسمح للوكلاء بالاحتفاظ بكميات هائلة من التاريخ دون الحاجة إلى ذاكرة HBM باهظة الثمن.
دمج طبقة البيانات الجديدة
يتطلب تنفيذ منصة ICMS تغييرًا في طريقة إدارة البنية التحتية لتكنولوجيا المعلومات. تعتمد المنصة على NVIDIA Spectrum-X Ethernet لتوفير النطاق الترددي العالي والاتصال منخفض الارتعاش المطلوب.
تتكامل المنصة مع أطر العمل الحالية مثل NVIDIA Dynamo ومكتبة نقل الاستدلال (NIXL) لإدارة حركة بيانات KV بين الطبقات المختلفة. كما تدعم إطار عمل NVIDIA DOCA من خلال توفير طبقة اتصال KV مخصصة.
العديد من بائعي وحدات التخزين الرئيسية، بما في ذلك AIC وCloudian وDell Technologies وHPE، يقومون بالفعل ببناء منصات متوافقة مع ICMS باستخدام معالج البيانات NVIDIA BlueField-4. ومن المتوقع أن تكون هذه الحلول متاحة في النصف الثاني من هذا العام.
إعادة التفكير في البنية التحتية لمركز البيانات
إن اعتماد طبقة ذاكرة سياقية مخصصة مثل ICMS يتطلب إعادة تقييم لتخطيط السعة وتصميم مركز البيانات. يجب على مديري تكنولوجيا المعلومات التعامل مع ذاكرة التخزين المؤقت KV كنوع بيانات فريد – “سريع الزوال ولكن حساس لزمن الوصول” – والتركيز على تخزين البيانات المتينة والباردة في طبقات التخزين التقليدية.
بالإضافة إلى ذلك، يجب أن تعتمد المؤسسات على برامج قادرة على وضع أعباء العمل بالقرب من سياقها المخزن مؤقتًا لتقليل حركة البيانات. كما يجب مراعاة زيادة كثافة الطاقة لكل متر مربع في مركز البيانات.
مستقبل الذكاء الاصطناعي الوكيل
يمثل الذكاء الاصطناعي الوكيل تطورًا كبيرًا في مجال الذكاء الاصطناعي، ولكنه يتطلب بنية تحتية جديدة قادرة على التعامل مع متطلبات الذاكرة المتزايدة. من خلال تقديم منصة ICMS، تساهم NVIDIA في حل هذه المشكلة وتمكين المؤسسات من توسيع نطاق الذكاء الاصطناعي الوكيل والاستفادة من إمكاناته الكاملة. تقييم كفاءة التسلسل الهرمي للذاكرة سيكون بنفس أهمية اختيار وحدة معالجة الرسوميات عند التخطيط للاستثمار في البنية التحتية المستقبلية للذكاء الاصطناعي.
الكلمات المفتاحية الثانوية: NVIDIA Rubin, ذاكرة التخزين المؤقت KV, استدلال الجيغا.
