قبل مؤتمر Google I/O 2024، لم يكن هناك شك في أن جوجل ستتحدث عن الذكاء الاصطناعي. بدأ الحدث بملاحظة صاخبة مناسبة. بدأ مارك ريبيليت، نجم اليوتيوب، العرض وهو يرتدي رداء الحمام بعد أن قفز من كوب عملاق.
حدد نجم وسائل التواصل الاجتماعي نغمة بقية الحدث من خلال مطالبة أعضاء الجمهور بالأفكار الموسيقية الجامحة التي ظهرت عبر برنامج AI DJ من Google. لم يكن بإمكان المضيف أن يطلب بداية أفضل. على حد تعبير الرئيس التنفيذي ساندر بيتشاي، نطق المسؤولون التنفيذيون في Google كلمة “AI” 121 مرة.
وبحلول الوقت الذي انتهى فيه الحدث، بقي لدي سؤالان مؤرقان. الأول: هل تحاول Google حل المشكلات التي لا توجد حتى في حياة الشخص العادي من خلال إطعامه قسرا جيلاتي الجوزاء؟ ثانياً: هل هناك سوق لأجهزة الذكاء الاصطناعي المتخصصة تبلغ قيمتها بضع مئات من الدولارات عندما يكتسب الذكاء الاصطناعي على الهواتف مجموعة من القوى العظمى المذهلة؟
حالة الحلي AI
حتى الآن، لدينا أدوات ذكاء اصطناعي برتقالية لطيفة مثل Rabbit R1، بالإضافة إلى شيء جيد مثل Humane AI Pin. حتى أن إحدى العلامات التجارية تصنع قلادة تعمل بالذكاء الاصطناعي. ومنهم من يستمع فقط. يتحدث الآخرون، ويسجلون مقاطع الفيديو، ويجرون المكالمات، ويستفيدون من روبوتات الذكاء الاصطناعي، بل ويحاولون فهم العالم من حولك.
الآن، لن أناقش مدى سوء أداء هذه الأجهزة حتى الآن. لكن محرر قسم الأجهزة المحمولة في Digital Trends، جو مارينج، يقول إن جهاز Rabbit R1 هو أحد أسوأ الأدوات التي استخدمها على الإطلاق. لم تكن قصة Humane AI Pin مختلفة جدًا أيضًا. أوه! حسنًا، هذه كلها أجهزة من الجيل الأول من نوعها، لذا دعونا نخفف عنها بعض الشيء.
ولكن ها هي الحقيقة. لا يبدو مستقبلهم مشرقًا أو سهلاً على جيوبهم أو حتى مريحًا. وفي غضون يومين، أوضحت شركتان كبيرتان في مجال الذكاء الاصطناعي – OpenAI وGoogle – هذه النقطة بشكل شبه قاطع.
أصبح الذكاء الاصطناعي الآن على دراية بالعالم
لنبدأ بالرؤية، وهي القوة التي تسمح للذكاء الاصطناعي برؤية العالم من خلال عدسة الكاميرا والتحدث عما يراه. عرضت Google شيئًا يسمى Gemini Live في I/O 2024. وقبل ذلك بيوم، كشفت OpenAI عن GPT-4o، حيث يشير الحرف “o” إلى متعدد الوسائط. هذه مجرد طريقة رائعة لقول متعدد الوسائط، مما يعني أن صديقك الذي يعمل بالذكاء الاصطناعي يمكنه التعامل مع النصوص والصوت والمرئيات للإدخال والإخراج. لكن الهدف النهائي متطابق في كلا المنتجين.
يمكنك تشغيل الذكاء الاصطناعي الذي تختاره، وتوجيه الكاميرا نحو أي شيء تقريبًا، وسوف يجيب الذكاء الاصطناعي على أسئلتك السياقية. يمكنك تشغيل الكاميرا الأمامية ومطالبة الذكاء الاصطناعي بتقديم تعليق بينما يشاهدك وأنت تلعب لعبة Rock, Paper, Scissors مع صديق. ويمكنه معرفة ما إذا كان قميصك الوردي ليس هو الملابس الأفضل لمقابلة عمل.
عند الحاجة، يمكنه النظر إلى الأشياء وشرحها باللغة البرتغالية، والتعرف على المباني مثل مرشد سياحي موثوق، والشعور بمناسبة خاصة من خلال النظر إلى القصاصات الورقية المنتشرة على الطاولة. قم بتوجيهه إلى الكود، وسوف يشرح الذكاء الاصطناعي الغرض من الكود. وإذا رأى الذكاء الاصطناعي مفاتيح سيارتك في أي وقت، فسوف يخبرك بالمكان الذي تركتهم فيه بالضبط.
الآن، جميع الإمكانات المذكورة أعلاه ليست موحدة عبر ChatGPT (عالية على عصير GPT-4o) وGemini Live (مع تقنية Google Astra وراءها). لكن الأساسيات مشتركة. يعد هذا أيضًا منعطفًا حاسمًا حيث تتسع خطوط الصدع بين تجربة الذكاء الاصطناعي على الهواتف والأجهزة المخصصة.
معضلة الأجهزة
يحتوي كل من Rabbit R1 و Humane AI Pin على كاميرات بدقة 8 ميجابكسل و 12 ميجابكسل على التوالي. نعم، يمكنهم رؤية العالم وفهمه، لكنهم لا يستطيعون مطابقة القطع المرئية للكاميرات عالية الدقة المستقرة بصريًا على هاتف ذكي نصف لائق من الجيل الحالي.
باختصار، سيعمل الهاتف الذكي العادي على تغذية المزيد من نقاط البيانات المرئية الصحية إلى محرك الذكاء الاصطناعي، المحلي أو القائم على السحابة، والذي يترجم مباشرة إلى فهم أفضل. فكر في الأمر على أنه مقارنة لقطة لمدونة فيديو في ضوء تحدي الميزانية وهاتف رائد ومطالبة أصدقائك بوصف كل ما يرونه. وبطبيعة الحال، لن يكون المقطع الباهت أو المنفجر مفيدًا كثيرًا هنا.
ثم هناك الجزء الحسابي. فيما بينها، تعمل أدوات الذكاء الاصطناعي الأكثر رواجًا في عام 2024 على شرائح MediaTek وQualcomm من الطبقة المنخفضة إلى المتوسطة. هذه الأجهزة ليست مثقلة بثقل نظام التشغيل بأكمله عليها، ولكن مما رأيناه حتى الآن، حتى الهاتف الذكي نصف اللائق يمكنه تنفيذ مهام الذكاء الاصطناعي بوتيرة أسرع بشكل كبير مقارنة بـ R1 أو Humane's Pin.
لا أريد أن تستغرق أداة الذكاء الاصطناعي الخاصة بي 15 ثانية لمعالجة الطلب في حين أن Siri القديم الجيد يمكنه القيام بعمل أفضل. وهذا معيار ضعيف، ولكن هذا هو المكان الذي يقف فيه R1. الآن بما أننا نتحدث عن السيليكون، فلنناقش كيف تلعب المعالجة دورًا رئيسيًا هنا. تنبض حيل الذكاء الاصطناعي التوليدية بالحياة بطريقتين. تأخذ معظم الحلول الاستعلامات إلى خادم سحابي، مما يعني أنها تحتاج إلى اتصال بالإنترنت.
الخيار الثاني هو المعالجة دون اتصال بالإنترنت، كما يفعل نموذج Gemini Nano من Google على سلسلة Pixel 8 وهواتف Samsung وغيرها. الميزة الأكبر هي أنك لا تحتاج إلى اتصال بالإنترنت في هذا السيناريو. لا يوجد حاليًا أي شيء يعمل بالذكاء الاصطناعي يمكنه العمل دون الاتصال بالإنترنت.
الذكاء الاصطناعي الموجود على الجهاز هو جوهرة حقيقية
من خلال المعالجة على الجهاز، يمكن لتطبيق Recorder على هواتف Pixel نسخ التسجيلات الصوتية وتلخيصها. سيعمل Magic Compose على رفع مستوى لعبة الرسائل النصية الخاصة بك دون طلب اتصال Wi-Fi أو الاتصالات الخلوية. وينطبق الشيء نفسه على الترجمات والنسخ. في الواقع، وضعت Google أسس الترجمات الموثوقة دون اتصال بالإنترنت منذ عام 2018 من خلال تقنية الترجمة الآلية العصبية.
ولكن هذا مجرد غيض من فيض. في وقت لاحق من هذا العام، ستقوم جوجل بإصدار Gemini Nano مع Multimodality. وهذا يعني أنك لن تحتاج إلى اتصال بالإنترنت حتى يتمكن Gemini Live من رؤية وفهم وتقديم إجابات سياقية لما يراه ويسمعه من خلال كاميرا هاتفك وشاشته وميكروفونك.
تعمل Google أيضًا على زيادة ميزة إمكانية الوصول إلى TalkBack مع Gemini. يعد هذا فوزًا كبيرًا للأشخاص الذين يعانون من تحديات الكلام والرؤية، ولكنهم يحتاجون إلى رفيق TalkBack موثوق به يتمتع بإمكانات متعددة الوسائط، ولكن ليس لديهم إمكانية الوصول إلى اتصال بالإنترنت.
هل أخبرتك أيضًا أن معالجة الذكاء الاصطناعي على الجهاز أسرع، وأنها أكثر أمانًا بشكل كبير لأنه لا توجد بيانات تترك هاتفك؟ والأهم من ذلك، أنه يقلل في النهاية من تكلفة تقديم ميزات الذكاء الاصطناعي التوليدية.
تعد التكلفة التي يتحملها المستهلكون حاليًا واحدة من أكبر حالات عدم اليقين عندما يتعلق الأمر بالحملة التسويقية الكاملة لهواتف الذكاء الاصطناعي. يأتي الذكاء الاصطناعي الموجود على الجهاز بمثابة ارتياح كبير في هذه الفوضى، حيث أن لديك على الأقل فكرة عن الحد الأدنى الذي يمكن أن يفعله هاتفك دون القلق كثيرًا بشأن توافق الميزات في السنوات القادمة.
الجوزاء يفعل ذلك بشكل صحيح
وأخيرا، لدينا مسألة التفاعل البالغة الأهمية. تتمحور حياتي حول Gmail والمستندات وDrive والخرائط والصور والبحث وغيرها. أنشأت Google برنامج Gems، المعروف أيضًا باسم المساعدين المخصصين المستندين إلى Gemini للتعامل مع مهام محددة ترتبط ارتباطًا وثيقًا بمنتجات النظام البيئي الأخرى.
على سبيل المثال، عندما تطلب من Gemini التخطيط لرحلة لك، فإنه سيلقي نظرة خاطفة على صندوق بريد Gmail الخاص بك لتحديد جدول التذاكر ثم يجمع البيانات الموجودة في المطالبة الصوتية/النصية مع معلومات بحث Google ذات الصلة لإنشاء خطة سفر كاملة التفاصيل.
بالنسبة لأولئك الذين يرغبون في الدفع مقابل برنامج Gemini aAdvanced، هناك المزيد من القوى الإنتاجية الفائقة. يمكنه معالجة ملفات PDF تصل إلى 1500 صفحة، أو 30000 سطر من التعليمات البرمجية، أو مقطع فيديو مدته ساعة، أو مزيج من تنسيقات الملفات المختلفة.
سوف يقوم Gemini بمعالجة كل تلك المدخلات وسيقدم لك بعد ذلك نسخًا مختصرة، ويحدد الجوانب المهمة، وحتى يعمل كمدرس بعد استيعاب كل تلك المواد. ويمكنه أيضًا استخدام جداول بيانات عادية وإنشاء تقرير مالي مفصل مع فهم واضح للأرباح والرؤى ذات الصلة.
سوف يسمع الذكاء الاصطناعي المكالمات وينبه المستخدمين إذا كان المتصل عملية احتيال. في الواقع، لن يأخذك Gemini حتى إلى تطبيق آخر. عندما تحتاج إليها، ستقوم واجهة Gemini ببساطة بالتمرير فوق التطبيق الذي تستخدمه في الوقت الحالي، وتقوم بعملها، وتختفي.
من الصعب التغلب على الهاتف الذكي
النقطة التي أريد توضيحها هنا هي أن الذكاء الاصطناعي يجب أن يعمل كمساعد، لكنه يحتاج إلى تحقيق التوازن الصحيح بين التنوع الوظيفي والراحة العملية. ولا يمكنها القيام بذلك إلا عندما يكون لديها إمكانية الوصول إلى البيانات التي تهمني شخصيًا ومهنيًا. وأريد أن يتم تقديم كل هؤلاء الأذكياء بأفضل طريقة ممكنة دون أي أعباء مالية إضافية.
في الوقت الحالي، بالكاد يمكن لأمثال Rabbit R1 أو Humane AI Pin أن تخدش سطح هذا التوصيل البيني العميق للمنتج. بالإضافة إلى ذلك، فإن الأجهزة نفسها تمنع الذكاء الاصطناعي من تحقيق إمكاناته الكاملة. لا أستطيع أن أتخيل قيام Google بترخيص Gemini Nano لشيء مثل Rabbit R1، وحتى لو حدث ذلك، فإن التجربة ستعيقها الأجهزة.
فلماذا تدفع مبلغًا إضافيًا وترضى بتجربة دون المستوى عندما يكون الهاتف الموجود في جيبك قادرًا على القيام بعمل رائع؟ هاتف الذكاء الاصطناعي موجود هنا. وهي هنا لتبقى. من ناحية أخرى، تعتبر حلى الذكاء الاصطناعي البرتقالية واللامعة وكأنها ميتة.