أصدرت منصة التعلم الآلي ، Hugging Face ، تطبيق iOS من شأنه أن يفهم العالم من حولك كما تراه كاميرا iPhone الخاصة بك. ما عليك سوى توجيهه إلى مشهد ، أو انقر فوق صورة ، وسيقوم بنشر الذكاء الاصطناعي لوصفها ، أو تحديد الكائنات ، أو تنفيذ الترجمة ، أو سحب التفاصيل المستندة إلى النص.
يدعى التطبيق ، المسمى Huggingsnap ، نهجًا متعدد الطراز لفهم المشهد من حولك كمدخل ، وهو متاح الآن مجانًا في متجر التطبيقات. يتم تشغيله بواسطة SMOLVLM2 ، وهو نموذج AI مفتوح يمكنه التعامل مع النص والصورة والفيديو كتنسيقات إدخال.
الهدف الشامل للتطبيق هو السماح للأشخاص بالتعرف على الأشياء والمناظر الطبيعية من حولهم ، بما في ذلك التعرف على النبات والحيوان. لا تختلف الفكرة عن الذكاء البصري على أجهزة iPhone ، ولكن Huggingnap لديها ساق حاسمة على منافستها في Apple.
يرجى تمكين JavaScript لعرض هذا المحتوى
لا يتطلب الإنترنت العمل
كل ما يحتاجه هو iPhone يعمل iOS 18 وأنت على ما يرام. لا يختلف واجهة مستخدم Huggingsnap عن ما تحصل عليه مع الذكاء البصري. ولكن هناك فرق أساسي هنا.
تعتمد Apple على chatgpt من أجل العمل الذكاء المرئي. ذلك لأن Siri غير قادر حاليًا على التصرف مثل أداة AI التوليدية ، مثل ChatGPT أو Gews's Gemini ، وكلاهما له بنك المعرفة الخاص بهما. بدلاً من ذلك ، فإنه يفرز جميع طلبات المستخدم والاستعلامات إلى ChatGPT.
يتطلب ذلك اتصالًا بالإنترنت نظرًا لأن ChatGPT لا يمكنه العمل في وضع غير متصل بالإنترنت. Huggingsnap ، من ناحية أخرى ، يعمل على ما يرام. علاوة على ذلك ، فإن النهج غير المتصلة بالإنترنت يعني عدم وجود بيانات مستخدم على الإطلاق تترك هاتفك ، وهو دائمًا تغيير مرحب به من منظور الخصوصية.
ماذا يمكنك أن تفعل مع huggingsnap؟
يتم تشغيل Huggingsnap بواسطة نموذج SMOLVLM2 الذي تم تطويره عن طريق العناق للوجه. لذا ، ما الذي يمكن أن ينجزه هذا النموذج الذي يدير العرض وراء هذا التطبيق؟ حسنًا ، كثيرًا. بصرف النظر عن الإجابة على الأسئلة بناءً على ما يراه من خلال كاميرا iPhone ، يمكنه أيضًا معالجة الصور التي تم التقاطها من معرض هاتفك.
على سبيل المثال ، أظهر لها صورة لأي نصب تذكاري تاريخي ، واطلب منها أن تقدم لك اقتراحات السفر. يمكن أن يفهم الأشياء التي تظهر على رسم بياني ، أو فهم صورة فاتورة الكهرباء والاستعلامات الإجابة بناءً على التفاصيل التي التقطتها من المستند.
لديها بنية خفيفة الوزن وهي مناسبة بشكل خاص لتطبيقات AI على الجهاز. في المعايير ، يعمل بشكل أفضل من طراز Paligemma (3B) المنافس من Google والكتفين مع نموذج Qwen AI من منافسه من Alibaba مع إمكانيات الرؤية.
أكبر ميزة هي أنه يتطلب تشغيل موارد النظام أقل ، وهو أمر مهم بشكل خاص في سياق الهواتف الذكية. ومن المثير للاهتمام ، أن مشغل وسائط VLC الشهير يستخدم أيضًا نفس طراز SMOLVLM2 لتوفير أوصاف الفيديو ، مما يتيح للمستخدمين البحث من خلال مقطع فيديو باستخدام مطالبات اللغة الطبيعية.
كما يمكن أن يستخرج بذكاء لحظات تسليط الضوء من مقطع الفيديو. يقول مستودع GitHub في التطبيق: “المصمم من أجل الكفاءة ، يمكن لـ SMOLVLM الإجابة على أسئلة حول الصور ، أو وصف المحتوى المرئي ، أو إنشاء قصص على أساس العديد من الصور ، أو تعمل كنموذج لغة خالصة بدون مدخلات مرئية”.