إن روبوتات الدردشة المدعمة بالذكاء الاصطناعي قادرة بالفعل على “رؤية” العالم من خلال الصور والفيديو. ولكن الآن، أعلنت Google عن وظائف تحويل الصوت إلى كلام كجزء من آخر تحديث لها لـ Gemini Pro. في Gemini 1.5 Pro، يمكن لروبوت الدردشة الآن “سماع” الملفات الصوتية التي تم تحميلها إلى نظامه ثم استخراج المعلومات النصية.
أتاحت الشركة إصدار LLM هذا كمعاينة عامة على منصة تطوير Vertex AI الخاصة بها. سيسمح هذا لمزيد من المستخدمين الذين يركزون على المؤسسات بتجربة الميزة وتوسيع قاعدتها بعد طرح أكثر خصوصية في فبراير عندما تم الإعلان عن النموذج لأول مرة. تم تقديم هذا في الأصل لمجموعة محدودة فقط من المطورين وعملاء المؤسسات.
1. التقسيم + فهم فيديو طويل
لقد قمت بتحميل مسابقة NBA dunk بأكملها من الليلة الماضية وسألت عن لعبة dunk التي حصلت على أعلى الدرجات.
كان Gemini 1.5 قادرًا بشكل لا يصدق على العثور على 50 غمرة مثالية محددة والتفاصيل من خلال فهم الفيديو السياقي الطويل فقط! pic.twitter.com/01iUfqfiAO
— روان تشيونغ (@rowancheung) 18 فبراير 2024
شاركت Google تفاصيل التحديث في مؤتمر Cloud Next الذي يعقد حاليًا في لاس فيغاس. بعد تسمية Gemini Ultra LLM الذي يشغل برنامج الدردشة Gemini Advanced chatbot الخاص به بأنه أقوى نموذج في عائلة Gemini، تطلق Google الآن على Gemini 1.5 Pro نموذجها التوليدي الأكثر قدرة. وأضافت الشركة أن هذا الإصدار أفضل في التعلم دون إجراء تعديلات إضافية على النموذج.
يعد Gemini 1.5 Pro متعدد الوسائط حيث يمكنه ترجمة أنواع مختلفة من الصوت إلى نص، بما في ذلك البرامج التلفزيونية والأفلام والبث الإذاعي وتسجيلات المكالمات الجماعية. إنه متعدد اللغات حيث يمكنه معالجة الصوت بعدة لغات مختلفة. قد يكون LLM أيضًا قادرًا على إنشاء نصوص من مقاطع الفيديو؛ ومع ذلك، قد تكون جودتها غير موثوقة، كما ذكر موقع TechCrunch.
عندما تم الإعلان عنه لأول مرة، أوضحت Google أن Gemini 1.5 Pro يستخدم نظام رمزي لمعالجة البيانات الأولية. يعادل مليون رمز ما يقرب من 700000 كلمة أو 30000 سطر من التعليمات البرمجية. في شكل الوسائط، يعادل ذلك ساعة من الفيديو أو حوالي 11 ساعة من الصوت.
كانت هناك بعض العروض التوضيحية للمعاينة الخاصة لـ Gemini 1.5 Pro والتي توضح كيف أن LLM قادر على العثور على لحظات محددة في نص الفيديو. على سبيل المثال، متحمس لمنظمة العفو الدولية روان تشيونغ حصل على وصول مبكر وشرح بالتفصيل كيف وجد العرض التوضيحي الخاص به لقطة حركة دقيقة في مسابقة رياضية ولخص الحدث، كما هو موضح في التغريدة المضمنة أعلاه.
ومع ذلك، لاحظت جوجل أن المستخدمين الأوائل الآخرين، بما في ذلك United Wholesale Mortgage وTBS وReplit، يختارون المزيد من حالات الاستخدام التي تركز على المؤسسات، مثل اكتتاب الرهن العقاري، وأتمتة وضع علامات على البيانات الوصفية، وإنشاء التعليمات البرمجية وشرحها وتحديثها.