على مدار الأشهر القليلة الماضية، أصدرت شركة Apple دفقًا مستمرًا من الأوراق البحثية التي توضح بالتفصيل عملها مع الذكاء الاصطناعي التوليدي. حتى الآن، التزمت شركة Apple الصمت بشأن ما يتم طهيه بالضبط في مختبراتها البحثية، في حين تنتشر شائعات مفادها أن شركة Apple تجري محادثات مع Google لترخيص برنامج Gemini AI لأجهزة iPhone.
ولكن كان هناك بعض الإعلانات التشويقية لما يمكن أن نتوقعه. في شهر فبراير، قدمت شركة Apple ورقة بحثية مفصلة نموذجًا مفتوح المصدر يسمى تحرير الصور الموجه بـ MLLM (MGIE) وهو قادر على تحرير الوسائط باستخدام تعليمات اللغة الطبيعية من المستخدمين. الآن، أدت ورقة بحثية أخرى حول Ferret UI إلى إصابة مجتمع الذكاء الاصطناعي بالجنون.
تتمثل الفكرة في نشر الذكاء الاصطناعي متعدد الوسائط (الذي يفهم النصوص بالإضافة إلى أصول الوسائط المتعددة) لفهم عناصر واجهة مستخدم الهاتف المحمول بشكل أفضل. – والأهم من ذلك، تقديم نصائح قابلة للتنفيذ. يعد هذا هدفًا بالغ الأهمية حيث يتسابق المهندسون لجعل الذكاء الاصطناعي أكثر فائدة لمستخدم الهاتف الذكي العادي مقارنة بحالة “خدعة الاستقبال” الحالية.
وفي هذا الاتجاه، تتمثل أكبر دفعة في فصل قدرات الذكاء الاصطناعي التوليدية عن السحابة، وإنهاء الحاجة إلى الاتصال بالإنترنت، ونشر كل مهمة على الجهاز بحيث تكون أسرع وأكثر أمانًا. لنأخذ على سبيل المثال برنامج Gemini من Google، والذي يعمل محليًا على هواتف سلسلة Google Pixel وSamsung Galaxy S24 – وقريبًا هواتف OnePlus – ويقوم بمهام مثل التلخيص والترجمة.
ما هي واجهة مستخدم Ferret الخاصة بشركة Apple؟
من خلال واجهة Ferret-UI، يبدو أن شركة Apple تهدف إلى مزج ذكاء نموذج الذكاء الاصطناعي متعدد الوسائط مع نظام التشغيل iOS. في الوقت الحالي، ينصب التركيز على المزيد من المهام “الأساسية” مثل “التعرف على الرموز، والعثور على النص، وقائمة الأدوات”. ومع ذلك، لا يقتصر الأمر على فهم ما يتم عرضه على شاشة iPhone فحسب، بل يتعلق أيضًا بفهمه بشكل منطقي والإجابة على الاستفسارات السياقية التي يطرحها المستخدمون من خلال قدراته المنطقية.
أسهل طريقة لوصف إمكانيات Ferret UI هي نظام ذكي للتعرف البصري على الأحرف (OCR) مدعوم بالذكاء الاصطناعي. تشير ورقة البحث إلى أنه “بعد التدريب على مجموعات البيانات المنسقة، تُظهر Ferret-UI فهمًا متميزًا لشاشات واجهة المستخدم والقدرة على تنفيذ التعليمات المفتوحة”. قام الفريق الذي يقف وراء Ferret UI بضبطه لاستيعاب “أي حل”.
يمكنك طرح أسئلة مثل “هل هذا التطبيق آمن لطفلي البالغ من العمر 12 عامًا؟” أثناء تصفح متجر التطبيقات. في مثل هذه المواقف، سيقرأ الذكاء الاصطناعي التصنيف العمري للتطبيق وسيقدم الإجابة وفقًا لذلك. لم يتم تحديد كيفية تقديم الإجابة – نصًا أو صوتًا – لأن الورقة لم تذكر Siri أو أي مساعد افتراضي، في هذا الشأن.
لم تسقط شركة Apple بعيدًا عن شجرة GPT
لكن الأفكار أكثر بانورامية وذكية بكثير. اسأله “كيف يمكنني مشاركة التطبيق مع صديق؟” وسيقوم الذكاء الاصطناعي بتسليط الضوء على أيقونة “المشاركة” على الشاشة. بالطبع، سيعطيك لمحة عما يومض على الشاشة، ولكن في الوقت نفسه، سيحلل الأصول المرئية على الشاشة بشكل منطقي – تمامًا مثل المربعات والأزرار والصور والأيقونات والمزيد. هذا فوز هائل في إمكانية الوصول.
إذا كنت ترغب في سماع المصطلحات التقنية، حسنًا، تشير الورقة إلى هذه القدرات باسم “محادثة الإدراك” و”الاستدلال الوظيفي” و”المحادثة التفاعلية”. يلخص أحد الأوصاف الواردة في الورقة البحثية في الواقع إمكانيات Ferret UI بشكل مثالي، ويصفها بأنها “أول MLLM مصمم لتنفيذ مهام إحالة وتأريض دقيقة خاصة بشاشات واجهة المستخدم، مع تفسير تعليمات اللغة المفتوحة والعمل عليها ببراعة.”
ونتيجة لذلك، يمكنه وصف لقطات الشاشة، وإخبار ما يفعله أصل معين عند النقر عليه، وتمييز ما إذا كان هناك شيء ما على الشاشة تفاعلي مع مدخلات اللمس. Ferret UI ليس مجرد مشروع داخلي. بدلاً من ذلك، بالنسبة لجزء الاستدلال والوصف، فهو يعتمد على تقنية GPT-4 الخاصة بـ OpenAI، والتي تعمل على تشغيل ChatGPT، إلى جانب مجموعة كاملة من منتجات المحادثة الأخرى المتوفرة.
والجدير بالذكر أن الإصدار المحدد المقترح في الورقة مناسب لنسب العرض إلى الارتفاع المتعددة. بالإضافة إلى إمكانات التحليل والاستدلال التي تظهر على الشاشة، تصف الورقة البحثية أيضًا بعض الإمكانات المتقدمة التي من المدهش جدًا تصورها. على سبيل المثال، في لقطة الشاشة أدناه، يبدو أنه ليس قادرًا على تحليل النص المكتوب بخط اليد فحسب، بل يمكنه أيضًا التنبؤ بالإصدار الصحيح من خلال خربشات المستخدم التي بها أخطاء إملائية.
MIt قادر أيضًا على قراءة النص الذي تم قطعه من الحافة العلوية أو السفلية بدقة والذي قد يتطلب تمريرًا رأسيًا. ومع ذلك، فهي ليست مثالية. في بعض الأحيان، يخطئ في تعريف الزر كعلامة تبويب ويخطئ في قراءة الأصول التي تجمع بين الصور والنص في كتلة واحدة.
عند مقارنتها بنموذج GPT-4V الخاص بـ OpenAI، قدمت Ferret UI مستوى مثيرًا للإعجاب من مخرجات تفاعل المحادثة عند طرح أسئلة تتعلق بالمحتوى المعروض على الشاشة. كما هو واضح في الصورة أدناه، تفضل Ferret UI إجابات أكثر إيجازًا ومباشرة، بينما يكتب GPT-4V ردودًا أكثر تفصيلاً.
الاختيار شخصي، ولكن إذا سألت الذكاء الاصطناعي: “كيف يمكنني شراء الحذاء الذي يظهر على الشاشة”، فإنني أفضل أن يعطيني الخطوات الصحيحة في أقل عدد ممكن من الكلمات. لكن أداء Ferret UI كان رائعًا ليس فقط في إبقاء الأمور موجزة، ولكن أيضًا في الدقة. في المهمة المذكورة أعلاه، سجلت Ferret UI نسبة 91.7% في مخرجات تفاعل المحادثة، بينما كان GPT-4V متقدمًا قليلاً فقط بدقة بلغت 93.4%.
عالم من الاحتمالات المثيرة للاهتمام
تمثل Ferret UI أول ظهور مثير للإعجاب للذكاء الاصطناعي الذي يمكنه فهم الإجراءات التي تظهر على الشاشة. الآن، قبل أن نتحمس كثيرًا بشأن الإمكانيات هنا، لسنا متأكدين من مدى دقة هدف Apple لدمج هذا مع نظام التشغيل iOS، أو ما إذا كان ذلك سيتحقق على الإطلاق، وذلك لأسباب متعددة. ذكرت بلومبرج مؤخرًا أن شركة Apple كانت على دراية بكونها متخلفة في سباق الذكاء الاصطناعي، وهذا واضح تمامًا من خلال الافتقار إلى منتجات الذكاء الاصطناعي الأصلية في نظام Apple البيئي.
أولاً، إن الشائعات التي تقول إن شركة Apple تفكر في عقد صفقة ترخيص Gemini مع Google أو OpenAI هي علامة على أن عمل Apple ليس على نفس مستوى عمل المنافسة. في مثل هذا السيناريو، سيكون الاستفادة من العمل الذي قامت به جوجل بالفعل مع جيميني (التي تحاول الآن استبدال مساعد جوجل على الهواتف) أكثر حكمة من دفع منتج ذكاء اصطناعي غير مكتمل على أجهزة آيفون وآيباد.
من الواضح أن شركة Apple لديها أفكار طموحة وتواصل العمل عليها، كما يتضح من التجارب المفصلة عبر أوراق بحثية متعددة. ومع ذلك، حتى لو تمكنت Apple من الوفاء بوعود Ferret UI داخل نظام التشغيل iOS، فسيظل ذلك بمثابة تنفيذ سطحي للذكاء الاصطناعي المولد على الجهاز.
ومع ذلك، فإن عمليات التكامل الوظيفي، حتى لو كانت مقتصرة فقط على التطبيقات المثبتة مسبقًا داخل الشركة، يمكن أن تؤدي إلى نتائج مذهلة. على سبيل المثال، لنفترض أنك تقرأ رسالة بريد إلكتروني بينما قام الذكاء الاصطناعي بالفعل بتقييم المحتوى الذي يظهر على الشاشة في الخلفية. أثناء قراءتك للرسالة في تطبيق البريد، يمكنك أن تطلب من الذكاء الاصطناعي باستخدام أمر صوتي إدخال إدخال في التقويم منها وحفظه في جدولك الزمني.
ليس من الضروري أن يكون عملاً روتينيًا متعدد الخطوات شديد التعقيد يتضمن أكثر من تطبيق واحد. لنفترض أنك تنظر إلى صفحة معلومات بحث Google الخاصة بأحد المطاعم، ومن خلال قول “اتصل بالمكان”، يقرأ الذكاء الاصطناعي رقم الهاتف الذي يظهر على الشاشة، وينسخه إلى برنامج الاتصال، ويبدأ المكالمة.
أو لنفترض أنك تقرأ تغريدة حول فيلم سيصدر في 6 أبريل، وتطلب من الذكاء الاصطناعي إنشاء اختصار موجه إلى تطبيق Fandango. أو، يلهمك منشور على أحد الشواطئ في فيتنام رحلتك المنفردة التالية، وينقلك عبارة “احجز لي تذكرة إلى Con Dai” البسيطة إلى تطبيق Skyscanner مع ملء جميع إدخالاتك بالفعل.
لكن قول كل هذا أسهل من فعله ويعتمد على متغيرات متعددة، قد يكون بعضها خارج سيطرة شركة Apple. على سبيل المثال، صفحات الويب المليئة بالنوافذ المنبثقة والإعلانات المتطفلة ستجعل من المستحيل على Ferret UI القيام بعملها. ولكن على الجانب الإيجابي، يلتزم مطورو iOS بشدة بإرشادات التصميم التي وضعتها شركة Apple، لذلك من المحتمل أن تقوم Ferret UI بسحرها بشكل أكثر كفاءة على تطبيقات iPhone.
سيظل هذا فوزًا مثيرًا للإعجاب. وبما أننا نتحدث عن التنفيذ على الجهاز بشكل محكم على مستوى نظام التشغيل، فمن غير المرجح أن تفرض شركة Apple رسومًا مقابل الراحة، على عكس منتجات الذكاء الاصطناعي التوليدية السائدة مثل ChatGPT Plus أو Microsoft Copilot Pro. هل سيعطينا نظام iOS 18 أخيرًا لمحة عن نظام iOS المُعاد تصوره والمعزز بذكاء الذكاء الاصطناعي؟ سيتعين علينا الانتظار حتى مؤتمر Apple للمطورين العالمي 2024 لمعرفة ذلك.