لطالما كان فهم كيفية عمل الدماغ البشري وبناء آلات تستطيع محاكاة الإدراك والحدس من أعمق طموحات البشرية. وبينما قطعت نماذج الذكاء الاصطناعي شوطًا كبيرًا في معالجة البيانات واللغة، ظلت لديها فجوة كبيرة في القدرة على فهم العالم المادي ببديهية، وهو أمر يكتسبه الأطفال الرضع بسهولة عبر الملاحظة. لكن الأبحاث الحديثة تشير إلى أن هذه الفجوة تضيق بسرعة، مع تطوير نماذج قادرة على إظهار الدهشة عندما تتغير قواعد الفيزياء أمامها، أي عند وقوع أحداث غير منطقية. ويمثل نموذج (V-JEPA) خطوة مهمة نحو تزويد الذكاء الاصطناعي بفهم فطري للعالم، مما يعد بثورة في مجالات الروبوتات والمركبات القيادة الذاتية.
الذكاء الاصطناعي يحاكي إدراك الأطفال الرضع
في خطوة علمية رائدة، تمكن باحثو شركة (ميتا) من تطوير نموذج للذكاء الاصطناعي يُظهر قدرة على فهم المبادئ الفيزيائية الأساسية للعالم، وهو ما يُعرف باسم (الحدس الفطري)، الذي يكتسبه الأطفال الرضع من خلال الملاحظة. ويتمثل هذا الإنجاز في النموذج، الذي يُسمى (V-JEPA)، والذي يستطيع أن يتفاجأ عندما يواجه أحداثًا مستحيلة فيزيائيًا، مثل اختفاء كائن دون سبب، محاكيًا بذلك رد فعل الأطفال بعمر ستة أشهر تجاه ديمومة الكائن.
ولا يعتمد نموذج (V-JEPA) على القواعد الفيزيائية المبرمجة سابقًا بل يتعلم من خلال مشاهدة ملايين الفيديوهات، تمامًا كما تتعلم العقول البشرية عبر التجربة. ويستطيع النموذج، وفق اختبارات ميتا، التنبؤ بما سيحدث في الفيديوهات اعتمادًا على (التمثيلات الكامنة) Latent Representations، وهي عبارة عن طبقات تجريدية تختصر آلاف البكسلات في معلومات جوهرية حول الأشياء وحركتها ومكانها. وإذا خالفت المشاهد المستقبلية توقعاته المنطقية، يظهر خطأ كبير في التنبؤ، يشبه شعور المفاجأة لدى الأطفال الرضّع.
كيف يختلف V-JEPA عن النماذج التقليدية؟
يواجه مهندسو الذكاء الاصطناعي، وخاصة أولئك الذين يطورون أنظمة القيادة الذاتية، تحديًا أساسيًا في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري. فقد اعتمدت الأنظمة المصممة لتحليل محتوى الفيديو – سواء لتصنيفه أو لتحديد معالم الأجسام المحيطة – لمدة طويلة على ما يُسمى (فضاء البكسل) Pixel Space. وفي هذا الفضاء، يُتعامل مع كل نقطة لونية (بكسل) في المشهد بوزن متساوٍ، في عملية تشبه تلقي الدماغ لجميع المدخلات الحسية دون فلترة أو تحديد أولويات.
ولكن يعاني هذا المنهج، نقطة عمياء إدراكية حتى في ظل فعاليته في بعض السياقات. تخيل مشهدًا معقدًا لشارع مليء بالسيارات وإشارات المرور، لو أصر النموذج على معالجة تفاصيل دقيقة وغير جوهرية مثل: حركة الأوراق أو تباين الظلال، سيؤدي ذلك إلى إغفال أكثر البيانات أهمية، مثل: لون إشارة المرور أو الموقع الدقيق للسيارات المجاورة. وكما يوضح الباحثون، فإن العمل في فضاء البكسل يعني التعامل مع كم ضخم من التفاصيل التي لا ينبغي نمذجتها بالضرورة، مما يعيق الكفاءة والقدرة على اتخاذ قرارات سريعة ومدركة.
معمارية V-JEPA: محاكاة التجريد الانتقائي
ولمعالجة هذا القصور، طورت ميتا معمارية (Video Joint Embedding Predictive Architecture) – التي تُعرف اختصارًا باسم (V-JEPA) – والتي أطلقتها في عام 2024، بهدف محاكاة جزء أساسي من العملية الإدراكية البشرية، وهو التجريد الانتقائي. وبينما تقوم النماذج التقليدية بحجب أجزاء من إطارات الفيديو وتدريب الشبكة على التنبؤ بقيمة البكسلات المفقودة، يتخذ نموذج (V-JEPA) مسارًا مختلفًا جذريًا.
إذ يستخدم عملية الحجب نفسها، ولكنه لا يتنبأ بما هو خلف القناع على مستوى البكسل، بل يتنبأ بالمحتوى بناءً على مستويات أعلى من التجريد تُعرف باسم التمثيلات الكامنة (Latent Representations)، وهي الجوهر الفلسفي والتقني الذي يحاكي الإدراك البشري. ويعتمد النموذج على مشفّر يحوّل الإطارات إلى مجموعة صغيرة من القيم الرقمية، التي تمثّل السمات الجوهرية التي تشمل: شكل الجسم، وأبعاده، وموقعه، وحركته، والعلاقات بين العناصر. وبدل آلاف البكسلات، يتعامل النظام مع جوهر المشهد فقط، تمامًا كما يعالج الدماغ المدخلات البصرية بإهمال الضوضاء والتركيز على المعلومات المفيدة.
ويؤكد كوينتن جاريدو، عالم الأبحاث في (ميتا)، أن جوهر قوة هذا النموذج يكمن في قدرته على تصفية المعطيات، قائلًا: “تتيح هذه الآلية للنموذج إسقاط الشوائب والتفاصيل غير الضرورية، والتركيز بدلًا من ذلك في أكثر الجوانب جوهرية وأهمية في المشهد المصوَّر. إن التخلص الكفؤ من المعلومات الزائدة هو هدف محوري يسعى نموذج (V-JEPA) إلى تحقيقه بأقصى درجات الفعالية”.
ويمنح هذا التحول من نمذجة البكسلات إلى نمذجة المعاني، نموذج (V-JEPA) قدرة كبيرة على التعميم، ودقة عالية في فهم المشاهد الجديدة، وكفاءة لافتة في البيئات المعقّدة مثل القيادة الذاتية أو الروبوتات. وبذلك، لا يقتصر دوره على رؤية العالم، بل فهمه، وهي خطوة عميقة نحو ما يشبه الإدراك البشري، مما يفتح الباب للتساؤل حول مدى قربنا من عصر “الآلات الواعية”.
محاكاة الحدس: حين يتفاجأ النموذج كما يتفاجأ الإنسان
كشف فريق (V-JEPA) في شهر فبراير الماضي، عن نتائج لافتة في اختبار (IntPhys)، المصمم لقياس قدرة نماذج التعلم الآلي على التمييز بين الأحداث الممكنة وغير الممكنة فيزيائيًا داخل مقاطع الفيديو. وحقق النموذج دقة قاربت 98%، متفوقًا بفارق كبير على نماذج الرؤية التقليدية التي تعتمد على التنبؤ في فضاء البكسل، والتي بالكاد تمكنت من تجاوز عتبة التخمين العشوائي.
ولا تعكس هذه النتيجة مجرد تحسّن تقني، بل تشير إلى انتقال نوعي من التعرّف البصري إلى مستوى أعمق من الفهم السياقي للعالم. ولم يكتفِ الباحثون بقياس دقة التنبؤ، بل ذهبوا خطوة أبعد، حين قاموا بقياس ما يمكن تسميته (درجة المفاجأة) لدى النموذج. فقد حُسِب رياضيًا الفارق بين ما يتوقعه (V-JEPA) أن يحدث في الإطارات المستقبلية وما يحدث فعليًا. وعندما احتوت المشاهد على خروقات صريحة لقوانين الفيزياء – مثل اختفاء كرة خلف حاجز وعدم ظهورها مجددًا – ارتفع خطأ التنبؤ بنحو حاد، في استجابة تشبه إلى حد بعيد ردّ الفعل الحدسي لدى الرضّع عندما تُنتهك قواعدهم الفطرية عن العالم.
وبعبارة أخرى، يمكننا القول إن نموذج (V-JEPA) بدا وكأنه تفاجأ بما رآه. وتكتسب هذه السمة أهمية خاصة، لأنها تعكس أن النموذج لا يكتفي بحفظ الأنماط، بل يبني توقعات داخلية عن كيفية تصرّف العالم، ويُظهر خللًا حسابيًا واضحًا عندما تُنتهك تلك التوقعات.
ومع ذلك، لا يرى بعض العلماء أن الطريق قد اكتمل. إذ يرى كارل فريستون، عالم الأعصاب الحاسوبي في جامعة كوليدج لندن، أن نموذج (V-JEPA) يسير في لمسار الصحيح نحو محاكاة الكيفية التي تتعلّم بها أدمغتنا البشرية وتبني تصوراتها عن العالم. ولكنه في الوقت نفسه، يؤكد أن هذا التقدم لا يزال منقوصًا، إذ يفتقر النموذج إلى بعض المقومات الجوهرية، ويبرز في مقدمتها غياب آلية واضحة لتمثيل عدم اليقين.
مستقبل الذكاء الاصطناعي: نحو آلات أكثر وعيًا؟
ما تُظهره نماذج مثل (V-JEPA) لا يتمثل في ميلاد وعي اصطناعي بالمعنى الفلسفي الدقيق، بل هو دليل قاطع على تسارع محاكاة الذكاء الاصطناعي نحو محاكاة الركائز الجوهرية للإدراك البشري، وهي: بناء التوقعات المنطقية، واكتشاف ما يخرق تلك التوقعات، والتعلّم من عنصر المفاجأة. ويمثل ذلك خطوة كبيرة نحو آلات قادرة على فهم العالم بوصفه منظومة مترابطة، لا مجرد سلسلة من المدخلات البصرية. ومع ذلك، تبقى هذه النماذج بعيدة عن امتلاك تجربة ذاتية أو وعي إنساني حقيقي. ولذلك لم يعد التساؤل المطروح اليوم؛ حول إمكانية الوصول إلى هذا المسار، بل أصبح يركز في المدى الذي يمكن أن تبلغه هذه المحاكاة، وما حدود الوعي التي قد تلامسها الآلة مستقبلًا؟
