يقدم باحثو NVIDIA نماذج وتقنيات ذكاء اصطناعي بصرية جديدة في مؤتمر رؤية الكمبيوتر والتعرف على الأنماط (CVPR) هذا الأسبوع في سياتل. تشمل التطورات مجالات مثل إنشاء الصور المخصصة وتحرير المشاهد ثلاثية الأبعاد وفهم اللغة المرئية وإدراك المركبات المستقلة.
قال جان كاوتز، نائب الرئيس لأبحاث التعلم والإدراك في NVIDIA: “يمثل الذكاء الاصطناعي، والذكاء الاصطناعي التوليدي على وجه الخصوص، تقدمًا تكنولوجيًا محوريًا.
“في CVPR، تشارك NVIDIA Research كيف ندفع حدود ما هو ممكن – بدءًا من نماذج توليد الصور القوية التي يمكنها تحفيز المبدعين المحترفين إلى برامج القيادة الذاتية التي يمكن أن تساعد في تمكين الجيل التالي من السيارات ذاتية القيادة.”
من بين أكثر من 50 مشروعًا بحثيًا تم تقديمه من NVIDIA، تم اختيار ورقتين بحثيتين كمرشحين نهائيين لجوائز أفضل ورقة من CVPR – إحداهما تستكشف ديناميكيات التدريب لنماذج الانتشار والأخرى حول خرائط عالية الوضوح للسيارات ذاتية القيادة.
بالإضافة إلى ذلك، فازت NVIDIA بمسار القيادة الشاملة على نطاق CVPR Autonomous Grand Challenge، متفوقة على أكثر من 450 مشاركة على مستوى العالم. يوضح هذا الإنجاز العمل الرائد لشركة NVIDIA في استخدام الذكاء الاصطناعي التوليدي لنماذج شاملة من المركبات ذاتية القيادة، كما حصلت أيضًا على جائزة الابتكار من CVPR.
أحد المشاريع البحثية الرئيسية هو JeDi، وهي تقنية جديدة تسمح للمبدعين بتخصيص نماذج النشر بسرعة – النهج الرائد لإنشاء تحويل النص إلى صورة – لتصوير كائنات أو أحرف محددة باستخدام عدد قليل من الصور المرجعية، بدلاً من الوقت. عملية مكثفة لضبط مجموعات البيانات المخصصة.
إنجاز آخر هو FoundationPose، وهو نموذج أساسي جديد يمكنه فهم وتتبع الوضع ثلاثي الأبعاد للأشياء في مقاطع الفيديو على الفور دون تدريب لكل كائن. لقد سجل رقمًا قياسيًا جديدًا في الأداء ويمكنه فتح تطبيقات جديدة للواقع المعزز والروبوتات.
قدم باحثو NVIDIA أيضًا NeRFDeformer، وهي طريقة لتحرير المشهد ثلاثي الأبعاد الذي تم التقاطه بواسطة مجال الإشعاع العصبي (NeRF) باستخدام لقطة ثنائية الأبعاد واحدة، بدلاً من الاضطرار إلى إعادة تنشيط التغييرات يدويًا أو إعادة إنشاء NeRF بالكامل. يمكن أن يؤدي ذلك إلى تبسيط عملية تحرير المشهد ثلاثي الأبعاد للرسومات والروبوتات والتطبيقات الرقمية المزدوجة.
على جبهة اللغة المرئية، تعاونت NVIDIA مع معهد ماساتشوستس للتكنولوجيا لتطوير VILA، وهي عائلة جديدة من نماذج لغة الرؤية التي تحقق أداءً متطورًا في فهم الصور ومقاطع الفيديو والنص. ومن خلال قدرات التفكير المحسنة، تستطيع VILA أيضًا فهم ميمات الإنترنت من خلال الجمع بين الفهم البصري واللغوي.
تشمل أبحاث الذكاء الاصطناعي المرئي من NVIDIA العديد من الصناعات، بما في ذلك أكثر من اثنتي عشرة ورقة بحثية تستكشف أساليب جديدة لإدراك المركبات ذاتية القيادة ورسم الخرائط والتخطيط. تقدم سانجا فيدلر، نائبة رئيس فريق أبحاث الذكاء الاصطناعي في NVIDIA، عرضًا حول إمكانات نماذج لغة الرؤية للسيارات ذاتية القيادة.
يجسد اتساع نطاق أبحاث CVPR من NVIDIA كيف يمكن للذكاء الاصطناعي التوليدي تمكين المبدعين، وتسريع الأتمتة في التصنيع والرعاية الصحية، مع دفع الاستقلالية والروبوتات إلى الأمام.
(الصورة بواسطة v2osk)
أنظر أيضا: NLEPs: سد الفجوة بين LLMs والتفكير الرمزي
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. ويقام هذا الحدث الشامل في موقع مشترك مع أحداث رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابي.
استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات والمدعومة من TechForge هنا.