واحدة من المشكلات الأساسية مع الذكاء الاصطناعى هي القوة العالية والحوسبة السمعة ، وخاصة بالنسبة للمهام مثل توليد الوسائط. على الهواتف المحمولة ، عندما يتعلق الأمر بالتشغيل أصليًا ، يمكن فقط عدد قليل من الأجهزة الثمنية مع السيليكون القوي تشغيل جناح الميزات. حتى عند تنفيذها على نطاق واسع على السحابة ، فهي علاقة غرامية.
ربما عالجت Nvidia هذا التحدي بهدوء بالشراكة مع الأشخاص في معهد ماساتشوستس للتكنولوجيا وجامعة تسينغهوا. قام الفريق بإنشاء أداة هجينة لتوليد صور AI تسمى HART (محول الانحدار التلقائي المختلط) والتي تجمع بشكل أساسي بين أكثر تقنيات إنشاء صورة AI المستخدمة على نطاق واسع. النتيجة هي أداة سريعة النيران مع متطلبات حساب أقل بشكل كبير.
فقط لإعطائك فكرة عن مدى سرعة ذلك ، طلبت ذلك لإنشاء صورة لببغاء يعزف على الجيتار. عاد مع الصورة التالية في حوالي ثانية. بالكاد أستطيع متابعة شريط التقدم. عندما دفعت نفس المطالبة قبل طراز Imagen 3 من Google في Gemini ، استغرق الأمر ما يقرب من 9 إلى 10 ثانية على اتصال إنترنت 200 ميغابت في الثانية.
اختراق هائل
عندما بدأت صور الذكاء الاصطناعى في صنع الأمواج لأول مرة ، كانت تقنية الانتشار وراء كل شيء ، حيث تعمل على تشغيل منتجات مثل مولد صور Dall-E من Openai ، و Google Imagen ، والانتشار المستقر. يمكن لهذه الطريقة إنتاج صور ذات مستوى عالٍ للغاية من التفاصيل. ومع ذلك ، فهو نهج متعدد الخطوات لإنشاء صور الذكاء الاصطناعى ، ونتيجة لذلك ، فهو بطيء ومكلف من الناحية الحسابية.
النهج الثاني الذي اكتسب شعبية مؤخرًا هو النماذج التلقائية للعبور ، والتي تعمل بشكل أساسي بنفس الطريقة مثل chatbots وإنشاء صور باستخدام تقنية تنبؤ البكسل. إنه أسرع ، ولكن أيضًا طريقة أكثر عرضة للخطأ لإنشاء الصور باستخدام الذكاء الاصطناعي.
قام الفريق في معهد ماساتشوستس للتكنولوجيا دمج كلتا الطريقتين في حزمة واحدة تسمى هارت. يعتمد على نموذج تصدر التلقائي للتنبؤ بأصول الصورة المضغوطة كرمز منفصل ، في حين أن نموذج الانتشار الصغير يتعامل مع الباقي للتعويض عن فقدان الجودة. يقلل النهج العام من عدد الخطوات التي تنطوي عليها أكثر من عشرين إلى ثماني خطوات.
يزعم الخبراء وراء هارت أنه “يمكن أن يولد صورًا تتطابق مع جودة نماذج الانتشار الحديثة أو تتجاوزها ، لكنهم يفعلون ذلك بشكل أسرع حوالي تسع مرات.” يجمع Hart بين نموذج الانحدار التلقائي مع نطاق معلمات 700 مليون ونموذج نشر صغير يمكنه التعامل مع 37 مليون معلمة.
حل أزمة الحوسبة
ومن المثير للاهتمام ، أن هذه الأداة الهجينة كانت قادرة على إنشاء صور تطابق جودة نماذج الرف العلوي بسعة 2 مليار معلمة. الأهم من ذلك ، تمكن هارت من تحقيق هذا المعلم بمعدل توليد صور أسرع تسع مرات ، بينما يتطلب موارد حسابية أقل بنسبة 31 ٪.
وفقًا للفريق ، يتيح النهج المنخفض الحوسبة هارت أن يعمل محليًا على الهواتف وأجهزة الكمبيوتر المحمولة ، وهو فوز كبير. حتى الآن ، تتطلب منتجات السوق الجماعية الأكثر شعبية مثل ChatGPT و Gemini اتصال إنترنت لتوليد الصور مع حدوث الحوسبة في الخوادم السحابية.
في مقطع الفيديو التجريبي ، عرض الفريق أنه يعمل أصلاً على جهاز كمبيوتر محمول من MSI مع معالج سلسلة Intel الأساسية وبطاقة رسومات NVIDIA Geforce RTX. هذا مزيج يمكنك العثور عليه في غالبية أجهزة الكمبيوتر المحمولة للألعاب هناك ، دون إنفاق ثروة ، أثناء وجوده في ذلك.
Hart قادر على إنتاج صور نسبة العرض إلى ارتفاع 1: 1 بدقة محترمة 1024 × 1024 بكسل. مستوى التفاصيل في هذه الصور مثير للإعجاب ، وكذلك الاختلاف الأسلوبي ودقة المشهد. خلال اختباراتهم ، أشار الفريق إلى أن أداة AI الهجينة كانت في أي مكان بين ثلاث إلى ست مرات أسرع وعرضت أكثر من سبع مرات إنتاجية أعلى.
الإمكانات المستقبلية مثيرة ، خاصة عند دمج إمكانيات صور هارت مع نماذج اللغة. يقول الفريق في معهد ماساتشوستس للتكنولوجيا: “في المستقبل ، يمكن للمرء أن يتفاعل مع نموذج توليدي موحد باللغة الرؤية ، ربما عن طريق مطالبة به إظهار الخطوات المتوسطة المطلوبة لتجميع قطعة من الأثاث”.
إنهم يستكشفون هذه الفكرة بالفعل ، وحتى يخططون لاختبار نهج هارت في توليد الصوت والفيديو. يمكنك تجربتها على لوحة معلومات الويب الخاصة بـ MIT.
بعض الحواف الخام
قبل أن نغوص في نقاش الجودة ، ضع في اعتبارك أن هارت هو مشروع بحثي لا يزال في مراحله المبكرة. على الجانب الفني ، هناك بعض المتاعب التي أبرزها الفريق ، مثل النفقات العامة أثناء عملية الاستدلال والتدريب.
يمكن إصلاح التحديات أو التغاضي عنها ، لأنها بسيطة في المخطط الأكبر للأشياء هنا. علاوة على ذلك ، بالنظر إلى الفوائد الهائلة التي يقدمها Hart من حيث كفاءة الحوسبة والسرعة والكمون ، فقد تستمر فقط دون أن تؤدي إلى أي مشاكل في الأداء الرئيسية.
في الوقت القصير ، اختبرت هارت الاختبار ، لقد دهشت من وتيرة توليد الصور. بالكاد واجهت سيناريو حيث استغرقت أداة الويب المجانية أكثر من ثانيتين لإنشاء صورة. حتى مع طول المطالبات التي تمتد ثلاث فقرات (تقريبًا أكثر من 200 كلمة) ، تمكن هارت من إنشاء صور تلتزم بإحكام إلى الوصف.
بصرف النظر عن الدقة الوصفية ، كان هناك الكثير من التفاصيل في الصور. ومع ذلك ، يعاني هارت من الإخفاقات النموذجية لأداة مولد صورة AI. إنه يكافح مع الأرقام ، والتصوير الأساسي مثل تناول المواد الغذائية ، واتساق الشخصية ، والفشل في التقاط المنظور.
الواقعية في السياق البشري هي أحد المجالات التي لاحظت فيها إخفاقات صارخة. في مناسبات قليلة ، أصبح ببساطة مفهوم الكائنات الأساسية خاطئًا ، مثل الخلط بين الحلقة مع قلادة. لكن بشكل عام ، كانت هذه الأخطاء بعيدة ، قليلة ، ومن المتوقع بشكل أساسي. لا تزال مجموعة صحية من أدوات الذكاء الاصطناعى لا يمكنها الحصول على هذا بشكل صحيح ، على الرغم من وجودها هناك لفترة من الوقت الآن.
بشكل عام ، أنا متحمس بشكل خاص للإمكانات الهائلة لهارت. سيكون من المثير للاهتمام معرفة ما إذا كان MIT و NVIDIA ينشئان منتجًا منه ، أو ببساطة اعتماد نهج توليد صور AI المختلط في منتج موجود. في كلتا الحالتين ، إنها لمحة عن مستقبل واعد للغاية.