إن نماذج اللغة الكبيرة التي تدعم برامج المحادثة الروبوتية اليوم مثل ChatGPT وGemini وClaude هي أنظمة ذكاء اصطناعي توليدية قوية للغاية، كما أنها تتطلب قدرًا هائلاً من الطاقة.
من الواضح أنها لا تحتاج إلى ذلك، كما أظهرت الأبحاث الحديثة التي أجريت في جامعة كاليفورنيا في سانتا كروز أن حاملي شهادة الماجستير الحديثة الذين يقومون بتشغيل مليارات من المعلمات يمكنهم العمل بقدرة 13 واط فقط من الطاقة دون خسارة في الأداء. وهذا يعادل تقريبًا لمبة إضاءة بقدرة 100 واط، وتحسينًا بمقدار 50 مرة مقارنة بـ 700 واط التي تستهلكها وحدة معالجة الرسومات Nvidia H100.
وقال جيسون إشراغيان، المؤلف الرئيسي للدراسة: “لقد حصلنا على نفس الأداء بتكلفة أقل بكثير، كل ما كان علينا فعله هو تغيير كيفية عمل الشبكات العصبية بشكل جذري”. “ثم خطونا خطوة أخرى إلى الأمام وقمنا ببناء أجهزة مخصصة.” لقد فعلوا ذلك عن طريق التخلص من مصفوفة الضرب في الشبكة العصبية.
يعد مضاعفة المصفوفة حجر الزاوية في الخوارزميات التي تدعم ماجستير إدارة الأعمال اليوم. يتم تمثيل الكلمات كأرقام ثم تنظيمها في مصفوفات حيث يتم وزنها وضربها مع بعضها البعض لإنتاج مخرجات لغوية اعتمادًا على أهمية كلمات معينة وعلاقتها بكلمات أخرى في الجملة أو الفقرة.
يتم تخزين هذه المصفوفات على مئات من وحدات معالجة الرسومات المنفصلة فعليًا ويتم جلبها مع كل استعلام أو عملية جديدة. إن عملية نقل البيانات التي يجب مضاعفتها بين العديد من المصفوفات تكلف قدرًا كبيرًا من الطاقة الكهربائية، وبالتالي المال.
للتغلب على هذه المشكلة، أجبر فريق جامعة كاليفورنيا في سانتا كروز الأرقام الموجودة في المصفوفات على الدخول في حالة ثلاثية – كل رقم يحمل قيمة إما سالب واحد، أو صفر، أو موجب واحد. وهذا يسمح للمعالجات بجمع الأرقام ببساطة بدلاً من ضربها، وهو تعديل لا يحدث أي فرق في الخوارزمية ولكنه يوفر قدرًا كبيرًا من التكلفة من حيث الأجهزة. وللحفاظ على الأداء على الرغم من انخفاض عدد العمليات، قدم الفريق حسابًا يعتمد على الوقت للنظام، مما أدى بشكل فعال إلى إنشاء “ذاكرة” للشبكة، وزيادة السرعة التي يمكنها بها معالجة العمليات المتناقصة.
وقال إشرغيان: “من وجهة نظر مصمم الدوائر، فأنت لا تحتاج إلى النفقات العامة للضرب، والتي تحمل تكلفة كبيرة للغاية”. وعلى الرغم من أن الفريق قام بتنفيذ شبكته الجديدة على أجهزة FGPA المخصصة، إلا أنهم ما زالوا واثقين من أن العديد من تحسينات الكفاءة يمكن تعديلها وتحديثها إلى النماذج الحالية باستخدام برامج مفتوحة المصدر وتعديلات بسيطة على الأجهزة. وحتى على وحدات معالجة الرسومات القياسية، شهد الفريق انخفاضًا في استهلاك الذاكرة بمقدار 10 مرات مع تحسين سرعة التشغيل بنسبة 25%.
مع قيام الشركات المصنعة للرقائق مثل Nvidia وAMD باستمرار بدفع حدود أداء معالج GPU، ارتفعت المتطلبات الكهربائية (والتكاليف المالية المرتبطة بها) لمراكز البيانات التي تحتوي على هذه الأنظمة في السنوات الأخيرة. مع الزيادة في قوة الحوسبة تأتي زيادة متناسبة في كمية الحرارة المهدرة التي تنتجها الرقائق – الحرارة المهدرة التي تتطلب الآن أنظمة تبريد سائلة كثيفة الاستخدام للموارد لتتبدد بالكامل.
حذر الرئيس التنفيذي لشركة آرم رينيه هاس The Register في أبريل من أن مراكز بيانات الذكاء الاصطناعي يمكن أن تستهلك ما يصل إلى 20-25٪ من إجمالي إنتاج الكهرباء في الولايات المتحدة بحلول نهاية العقد إذا لم يتم اتخاذ تدابير تصحيحية وبسرعة.