تحرز شركة الذكاء الاصطناعي xAI التابعة للملياردير إيلون ماسك تقدمًا في إضافة المدخلات المتعددة الوسائط إلى روبوت الدردشة بالذكاء الاصطناعي Grok، وفقًا لوثائق المطورين العامة.
ويعني ذلك أنه قد يتمكن المستخدمون قريبًا من تحميل الصور إلى Grok وتلقي إجابات نصية.
وروجت xAI للمدخلات المتعددة الوسائط أول مرة من خلال تدوينة نشرتها في الشهر الماضي تقول فيها إن Grok-1.5V سيقدم نماذج متعددة الوسائط في عدد من المجالات.
ويبدو أن التحديث الأخير لمستندات المطور يظهر التقدم المحرز في جلب النموذج الجديد.
وفي مستندات المطورين، توضح التعليمات البرمجية بلغة البرمجة بايثون Python كيف يمكن للمطورين استخدام مكتبة أدوات تطوير برامج xAI لإنشاء استجابة تعتمد على كل من النصوص والصور.
وتقرأ هذه التعليمات البرمجية ملف صورة، وتعد مطالبة نصية، وتستخدم مكتبة أدوات تطوير برامج xAI لإنشاء استجابة.
ويعد هذا تحديثًا كبيرًا لروبوت الدردشة Grok الذي أصدرته xAI أول مرة في شهر نوفمبر 2023، وهو متاح للمستخدمين الذين يدفعون مقابل اشتراك X Premium Plus.
وكان آخر تحديث هو Grok 1.5 في شهر مارس، والذي جاء مزودًا بقدرات تفكير محسنة.
وتوضح تدوينة أن النموذج تدرب على مجموعة متنوعة من البيانات النصية من المصادر المتاحة للجمهور من الإنترنت حتى الربع الثالث من عام 2023 ومجموعات البيانات التي راجعها البشر.
ولم يتدرب Grok-1 على بيانات إكس، ويشمل ذلك منشورات إكس العامة، مع أن Grok يمتلك معرفة فورية بالعالم، ويشمل ذلك منشورات إكس.
وأسس ماسك xAI في شهر مارس 2023، وتعد جديدة نسبيًا في مجال الذكاء الاصطناعي وتتخلف عن المنافسين، مثل OpenAI.
ووفقًا لتدوينة من الشركة، فإن Grok 1.5 يعمل على سد الفجوة مع GPT-4 في معايير مختلفة تغطي نطاقًا واسعًا من مشكلات المنافسة من المدرسة الابتدائية إلى المدرسة الثانوية.
وغالبًا ما تتعرض المعايير القياسية لنماذج اللغات الكبيرة للانتقاد لأن النماذج قد تؤدي أداءً جيدًا وفقًا للمعايير إذا توفرت تلك المعايير في بيانات التدريب، وهو أمر يشبه حفظ إجابات الاختبار بدلًا من تعلم المادة.
وتعد روبوتات الدردشة التحادثية المتعددة الوسائط بمنزلة التطور الجديد في مجال الذكاء الاصطناعي، وذلك في ظل التطورات العديدة المعلنة خلال وقت سابق من هذا الشهر.