عرضت OpenAI وGoogle منتجاتهما أحدث وأكبر تكنولوجيا الذكاء الاصطناعي هذا الاسبوع. على مدى العامين الماضيين، تسابقت شركات التكنولوجيا لجعل نماذج الذكاء الاصطناعي أكثر ذكاءً، ولكن الآن ظهر تركيز جديد: جعلها متعددة الوسائط. تركز شركتا OpenAI وGoogle على الذكاء الاصطناعي الذي يمكنه التبديل بسلاسة بين الفم والعينين والأذنين الروبوتيتين.
تعد كلمة “متعدد الوسائط” من أكثر الكلمات الطنانة حيث تراهن شركات التكنولوجيا على الشكل الأكثر إغراءً لنماذج الذكاء الاصطناعي الخاصة بها في حياتك اليومية. فقدت روبوتات الدردشة المدعمة بالذكاء الاصطناعي بريقها منذ إطلاق ChatGPT في عام 2022. لذلك تأمل الشركات أن يكون التحدث إلى مساعد الذكاء الاصطناعي ومشاركتها بصريًا مع مساعد الذكاء الاصطناعي أكثر طبيعية من الكتابة. عندما ترى الذكاء الاصطناعي متعدد الوسائط يعمل بشكل جيد، فإنك تشعر وكأن الخيال العلمي قد أصبح حقيقة.
يوم الاثنين، ظهرت OpenAI جي بي تي-4 أومني، والذي كان يذكرنا بشكل غريب بالفيلم البائس عن فقدان الاتصال البشري ها. يرمز Omni إلى “omnichannel”، وقد أشاد OpenAI بقدرة النموذج على معالجة الفيديو إلى جانب الصوت. أظهر العرض التوضيحي أن ChatGPT ينظر إلى مسألة رياضية من خلال كاميرا الهاتف، حيث طلب أحد موظفي OpenAI شفهيًا من برنامج الدردشة الآلي أن يرشدهم عبرها. يقول OpenAI أنه تم طرحه الآن لمستخدمي Premium.
في اليوم التالي، جوجل تم الكشف عن مشروع أسترا، والتي وعدت بفعل نفس الشيء تقريبًا. استخدمت فلورنس أيون من Gizmodo الذكاء الاصطناعي متعدد الوسائط لتحديد الزهور الاصطناعية التي كانت تنظر إليها، والتي حددتها بشكل صحيح على أنها زهور التوليب. ومع ذلك، بدا مشروع Astra أبطأ قليلاً من GPT-4o، وكان الصوت أكثر آليًا بكثير. سيري أكثر من ها، لكنني سأدعك تقرر ما إذا كان هذا أمرًا جيدًا. تقول جوجل إن هذا لا يزال في المراحل الأولى، بل إنها تشير إلى بعض التحديات الحالية التي تغلبت عليها شركة OpenAI.
وقالت جوجل في بيان: “على الرغم من أننا حققنا تقدمًا مذهلاً في تطوير أنظمة الذكاء الاصطناعي التي يمكنها فهم المعلومات متعددة الوسائط، فإن تقليل وقت الاستجابة لشيء تحادثي يمثل تحديًا هندسيًا صعبًا”. مشاركة مدونة.
الآن ربما تتذكر فيديو Google التجريبي لـGemini من ديسمبر 2023 والذي تبين أنه تم التلاعب به بشكل كبير. وبعد ستة أشهر، لا تزال جوجل غير مستعدة لإصدار ما أظهرته في هذا الفيديو، لكن OpenAI تتقدم بسرعة مع GPT-4o. يمثل الذكاء الاصطناعي المتعدد الوسائط السباق الكبير التالي في تطوير الذكاء الاصطناعي، ويبدو أن OpenAI هو الفائز.
أحد الاختلافات الرئيسية في GPT-4o هو أن نموذج الذكاء الاصطناعي الفردي يمكنه معالجة الصوت والفيديو والنص أصلاً. في السابق، كانت شركة OpenAI بحاجة إلى نماذج ذكاء اصطناعي منفصلة لترجمة الكلام والفيديو إلى نص حتى يتمكن GPT-4 الأساسي، والذي يعتمد على اللغة، من فهم هذه الوسائط المختلفة. ويبدو أن جوجل ربما لا تزال تستخدم نماذج ذكاء اصطناعي متعددة لأداء هذه المهام، نظرًا لأوقات الاستجابة الأبطأ.
لقد شهدنا أيضًا اعتمادًا أوسع لـ أجهزة الذكاء الاصطناعي القابلة للارتداء حيث تتبنى شركات التكنولوجيا الذكاء الاصطناعي متعدد الوسائط. تعد Humane AI Pin وRabbit R1 وMeta Ray-Bans كلها أمثلة على الأجهزة التي تدعم الذكاء الاصطناعي والتي تستخدم هذه الوسائط المتنوعة. تعد هذه الأجهزة بجعلنا أقل اعتمادًا على الهواتف الذكية، على الرغم من أنه من الممكن أن يتم تمكين Siri ومساعد Google أيضًا باستخدام الذكاء الاصطناعي متعدد الوسائط قريبًا.
من المرجح أن الذكاء الاصطناعي متعدد الوسائط هو شيء ستسمع عنه الكثير في الأشهر والسنوات القادمة. إن تطويره ودمجه في المنتجات يمكن أن يجعل الذكاء الاصطناعي أكثر فائدة بشكل ملحوظ. في نهاية المطاف، تزيل التكنولوجيا العبء عنك لنقل العالم إلى ماجستير في القانون وتسمح للذكاء الاصطناعي “برؤية” و”سماع” العالم بنفسه.