أعلن فريق أبحاث الذكاء الاصطناعى الأساسي (FAIR) في META عن خمس مشاريع تقدم سعي الشركة إلى ذكاء الآلات المتقدمة (AMI).
تركز أحدث الإصدارات من Meta بشكل كبير على تعزيز إدراك الذكاء الاصطناعي – قدرة الآلات على معالجة وتفسير المعلومات الحسية – إلى جانب التطورات في نمذجة اللغة والروبوتات ووكلاء الذكاء الاصطناعي التعاوني.
ذكرت Meta أن هدفها ينطوي على إنشاء آلات “قادرة على الحصول على المعلومات الحسية ومعالجتها وتفسيرها حول العالم من حولنا ، ويمكنهم استخدام هذه المعلومات لاتخاذ القرارات مع الذكاء والسرعة الشبيهة بالإنسان.”
تمثل الإصدارات الخمسة الجديدة الجهود المتنوعة ولكن المترابطة نحو تحقيق هذا الهدف الطموح.
تشفير الإدراك: meta يشحذ “رؤية” الذكاء الاصطناعي
من الأمور الأساسية للإصدارات الجديدة هو تشفير الإدراك ، الموصوف بأنه تشفير رؤية واسع النطاق مصمم للتفوق عبر مختلف مهام الصور والفيديو.
تعمل مشفرات الرؤية كـ “عيون” لأنظمة الذكاء الاصطناعى ، مما يسمح لها بفهم البيانات البصرية.
يسلط Meta الضوء على التحدي المتزايد المتمثل في بناء المشفرات التي تلبي متطلبات الذكاء الاصطناعى المتقدم ، والتي تتطلب إمكانات التي تعالج الرؤية واللغة ، والتعامل مع كل من الصور ومقاطع الفيديو بشكل فعال ، وتظل قوية في ظل ظروف صعبة ، بما في ذلك الهجمات العدائية المحتملة.
يجب أن يتعرف المشفر المثالي ، وفقًا لـ META ، على مجموعة واسعة من المفاهيم مع التمييز بين التفاصيل الدقيقة – مما يضع أمثلة مثل اكتشاف “stingray lurrowed تحت قاع البحر ، مع تحديد غولفنش صغير في خلفية صورة ما ، أو اصطياد agouti المتجول على كاميرا للحياة البرية في الرؤية الليلية.”
تدعي Meta أن تشفير التصور يحقق “أداءً استثنائياً على تصنيف الصور والفيديو صفراً وتراجعًا ، متجاوزًا جميع النماذج الموجودة في المصادر المفتوحة والملكية لمثل هذه المهام.”
علاوة على ذلك ، يقال إن نقاط قوته الإدراكية تترجم جيدًا إلى مهام اللغة.
عند التوافق مع نموذج لغة كبير (LLM) ، يقال إن المشفر يتفوق على ترميزات الرؤية الأخرى في مجالات مثل الإجابة على أسئلة مرئية (VQA) ، والتسمية التوضيحية ، وفهم الوثائق ، والتأريض (ربط النص بمناطق صورة محددة). وبحسب ما ورد ، يعزز الأداء في المهام صعبة التقليدية بالنسبة لـ LLMs ، مثل فهم العلاقات المكانية (على سبيل المثال ، “إذا كان هناك كائن وراء آخر”) أو حركة الكاميرا بالنسبة إلى كائن.
وقال ميتا: “مع بدء التصور في التصور في تطبيقات جديدة ، نحن متحمسون لمعرفة كيف ستمكن قدرات الرؤية المتقدمة أنظمة الذكاء الاصطناعى أكثر قدرة”.
نموذج لغة الإدراك (PLM): البحث المفتوح في لغة الرؤية
استكمال المشفر هو نموذج لغة الإدراك (PLM) ، وهو نموذج مفتوح وقابل للاستنساخ اللغوي الذي يهدف إلى مهام التعرف المرئي المعقدة.
تم تدريب PLM باستخدام بيانات اصطناعية واسعة النطاق مع مجموعات بيانات ذات لغة مفتوحة ، بشكل صريح دون تقطير المعرفة من نماذج الملكية الخارجية.
من خلال التعرف على الثغرات في بيانات فهم الفيديو الحالية ، جمع الفريق العادل 2.5 مليون عينة جديدة ذات علامة الإنسان التي تركز على إجابة أسئلة الفيديو الدقيقة والتعليق المكاني والزماني. تدعي Meta أن هذا يشكل “أكبر مجموعة بيانات من نوعها حتى الآن.”
يتم تقديم PLM في إصدارات المعلمة 1 و 3 و 8 مليارات ، تلبية احتياجات البحث الأكاديمي التي تتطلب الشفافية.
إلى جانب النماذج ، تقوم Meta بإصدار PLM-VideObench ، وهو معيار جديد مصمم خصيصًا لاختبار القدرات غالبًا ما يفتقده المعايير الحالية ، أي “فهم النشاط الدقيق والمنطق المكاني على الأرض”.
يأمل Meta في أن يمكّن مزيج من النماذج المفتوحة ، ومجموعة البيانات الكبيرة ، والمعيار الصعبة للمجتمع المفتوح المصدر.
تحديد موقع Meta 3D: إعطاء روبوتات الوعي الظرفي
سد الفجوة بين أوامر اللغة والعمل البدني هو تحديد موقع Meta 3D. يهدف هذا النموذج الشامل إلى السماح للروبوتات بتوطين الأشياء بدقة في بيئة ثلاثية الأبعاد تعتمد على استعلامات اللغة الطبيعية المفتوحة.
Meta تحديد موقع 3D العمليات السحب ثلاثية الأبعاد مباشرة من أجهزة استشعار RGB-D (مثل تلك الموجودة على بعض الروبوتات أو كاميرات الاستشعار عن العمق). بالنظر إلى موجه نصي ، مثل “مزهرية الزهور بالقرب من وحدة التحكم التلفزيونية” ، ينظر النظام في العلاقات المكانية والسياق لتحديد مثيل الكائن الصحيح ، ويميزه ، على سبيل المثال ، “مزهرية على الطاولة”.
يشتمل النظام على ثلاثة أجزاء رئيسية: خطوة معالجة مسبقة تحويل ميزات ثنائية الأبعاد إلى غيوم النقطة ثلاثية الأبعاد ؛ تشفير jepa ثلاثي الأبعاد (نموذج قبل أن يخلق تمثيلًا ثلاثي الأبعاد للسياق ثلاثية الأبعاد) ؛ وموقع فك التشفير ثلاثي الأبعاد ، الذي يأخذ التمثيل ثلاثي الأبعاد والاستعلام اللغوي لإخراج الصناديق والأقنعة حول الكائنات المحددة.
إلى جانب النموذج ، تقوم Meta بإصدار مجموعة بيانات جديدة كبيرة لتوطين الكائنات بناءً على تعبيرات إحالة. ويشمل 130،000 تعليقات اللغة عبر 1،346 مشاهد من مجموعات بيانات Arkitscenes و Scannet و Scannet ++ ، مما يضاعف بشكل فعال بيانات مشروحة موجودة في هذا المجال.
ترى Meta أن هذه التكنولوجيا أمر بالغ الأهمية لتطوير أنظمة آلية أكثر قدرة ، بما في ذلك مشروع Partnr Robot الخاص بها ، مما يتيح المزيد من التفاعل والتعاون الطبيعي البشري.
محول كامن بايت ديناميكي: نمذجة لغة فعالة وقوية
بعد الأبحاث المنشورة في أواخر عام 2024 ، تصدر Meta الآن أوزان النموذج لمحولها الكامن البايت الديناميكي البالغ 8 مليارات.
تمثل هذه البنية تحولًا بعيدًا عن نماذج اللغة التقليدية القائمة على الرمز المميز ، وتعمل بدلاً من ذلك على مستوى البايت. تدعي Meta أن هذا النهج يحقق أداءً مماثلًا على نطاق واسع مع تقديم تحسينات كبيرة في كفاءة الاستدلال والمتانة.
تقسم LLMs التقليدية النص إلى “الرموز” ، والتي يمكن أن تصارع مع الأخطاء الإملائية ، والكلمات الجديدة ، أو المدخلات العدائية. النماذج على مستوى البايت معالجة البايتات الخام ، وربما توفر مرونة أكبر.
تشير Meta إلى أن المحول الديناميكي Byte Latent Transformer “يتفوق على النماذج القائمة على الرمز المميز عبر مختلف المهام ، مع ميزة متانة متوسط قدرها +7 نقاط (على Hellaswag المضطربة) ، والوصول إلى ما يصل إلى +55 نقطة في المهام من معايير الرمز المميز اللطيف.”
من خلال إطلاق الأوزان إلى جانب قاعدة الشفرة المشتركة سابقًا ، تشجع Meta مجتمع الأبحاث على استكشاف هذا النهج البديل لنمذجة اللغة.
سبب تعاوني: Meta يتقدم
يعالج الإصدار النهائي ، وهو Distresser التعاوني ، التحدي المعقد المتمثل في إنشاء وكلاء الذكاء الاصطناعى الذين يمكنهم التعاون بفعالية مع البشر أو غيرها من الذكاء الاصطناعي.
يلاحظ Meta أن التعاون البشري غالبًا ما يعطي نتائج متفوقة ، ويهدف إلى إشراك الذكاء الاصطناعي مع إمكانات مماثلة للمهام مثل المساعدة في الواجب المنزلي أو إعداد المقابلة الوظيفية.
لا يتطلب هذا التعاون حل المشكلات فحسب ، بل يتطلب أيضًا مهارات اجتماعية مثل التواصل والتعاطف وتوفير التعليقات وفهم الحالات العقلية للآخرين (نظرية القول) ، وغالبًا ما تتكشف عن المنعطفات المحادثة المتعددة.
غالبًا ما تهمل أساليب التدريب والتقييم الحالية LLM هذه الجوانب الاجتماعية والتعاونية. علاوة على ذلك ، فإن جمع بيانات المحادثة ذات الصلة مكلفة وصعبة.
يوفر Distresser التعاونية إطارًا لتقييم هذه المهارات وتعزيزها. ويشمل المهام الموجهة نحو الأهداف التي تتطلب التفكير متعدد الخطوات الذي تم تحقيقه من خلال المحادثة بين وكيلين. يختبر الإطار قدرات مثل الاختلاف بشكل بناء ، وإقناع الشريك ، والوصول إلى حل أفضل مشترك.
كشفت تقييمات Meta أن النماذج الحالية تكافح للاستفادة باستمرار من التعاون للحصول على نتائج أفضل. لمعالجة هذا ، يقترحون تقنية تحسين الذات باستخدام بيانات التفاعل الاصطناعي حيث يتعاون وكيل LLM مع نفسه.
يتم تمكين إنشاء هذه البيانات على نطاق واسع من خلال محرك خدمة طراز عالي الأداء جديد يسمى Matrix. باستخدام هذا النهج في الرياضيات ، أفادت التقارير أن مهام التفكير العلمي والاجتماعي أسفرت عن تحسينات تصل إلى 29.4 ٪ مقارنة بأداء “سلسلة الفكرة” القياسي لـ LLM واحد.
من خلال التعهيد المفتوح لتوليد البيانات ونمذجة النمذجة ، تهدف Meta إلى تعزيز المزيد من الأبحاث إلى إنشاء “وكلاء اجتماعيين يمكنهم الشراكة مع البشر والوكلاء الآخرين”.
هذه الإصدارات الخمسة التي تؤكد بشكل جماعي استمرار الاستثمار الثقيل في Meta في أبحاث الذكاء الاصطناعي الأساسي ، مع التركيز بشكل خاص على لبنات بناء الآلات التي يمكن أن تتصور وفهم وتفاعل مع العالم بطرق أكثر تشبه الإنسان.
انظر أيضا: سيقوم Meta بتدريب نماذج الذكاء الاصطناعي باستخدام بيانات مستخدم الاتحاد الأوروبي
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. تم تحديد الحدث الشامل مع الأحداث الرائدة الأخرى بما في ذلك مؤتمر الأتمتة الذكي ، و blockx ، وأسبوع التحول الرقمي ، ومعرض Cyber Security & Cloud.
استكشاف أحداث وندوات الويب القادمة الأخرى التي تعمل بها TechForge هنا.