قدمت شركة (OpenAI) الكثير من المفاجآت خلال حدث (Spring Update)، الذي بثته مباشرة أمس، وأهمها الكشف عن نموذج الذكاء الاصطناعي (GPT-4o) الجديد، وهو عبارة إصدار مطور من نموذجها اللغوي الشهير (GPT-4)، الذي مر على إطلاقه الآن أكثر من عام.
يُعدّ نموذج (GPT-4o) نقلة نوعية في مجال الذكاء الاصطناعي، فهو يقدم العديد من المزايا الجديدة التي تجعله أسرع في الأداء، وأرخص في التشغيل، وأكثر كفاءة ودقة في النتائج مقارنة بالنماذج السابقة.
بالإضافة إلى ذلك؛ أكدت ميرا موراتي، كبيرة المسؤولين التقنيين في شركة OpenAI، أمس خلال تقديم النموذج الجديد أن الشركة تسعى إلى إتاحة قدرات الذكاء الاصطناعي عبر روبوت (ChatGPT) للجميع، لذلك ستتيح نموذج (GPT-4o) الجديد لعموم المستخدمين مجانًا، ومن ثم لن يكون حصريًا للمشتركين بمقابل مادي كما هو الحال مع نموذج (GPT-4) الذي أطلقته العام الماضي.
ولكن ما نموذج (GPT-4o) الجديد، وكيف يعمل، وما الفرق بينه وبين نموذج (GPT-4)؟ إليك كل ما تحتاج إلى معرفته عن هذا النموذج الجديد المجاني للجميع:
أولًا؛ ما نموذج (GPT-4o) الجديد؟
يقدم (GPT-4o) الجديد القدرات نفسها التي يقدمها نموذج (GPT-4)، ولكنه أكثر ذكاءً وأسرع وأرخص في التشغيل، الأمر الذي يمثل علامة فارقة في تطور تقنيات التعلم الآلي والذكاء الاصطناعي التوليدي للشركة، بقيادة سام ألتمان.
يشير الحرف (o) في اسم النموذج (GPT-4o) إلى كلمة (omni)، وهي مشتقة من اللغة اللاتينية وتعني الكل أو الشامل، ويمكن تفسيرها بأنه نموذج واحد شامل لعدة نماذج داخله، إذ يتعامل هذا النموذج مع المدخلات المتعددة الوسائط، بما يشمل: النصوص والصوت والفيديو والصور بكفاءة ودقة عالية.
ومن المتوقع أن يجعل هذا النموذج الجديد طريقة التفاعل بين الإنسان والحاسوب أكثر طبيعة من خلال تزويد روبوت (ChatGPT) بقدرات متطورة في التعامل مع النصوص المكتوبة والأوامر الصوتية، وكذلك فهم وإدراك ما تراه كاميرا الهواتف الذكية.
ثانيًا؛ كيف يعمل هذا النموذج الجديد؟
أكدت شركة (OpenAI) في بيان إعلان نموذج GPT-4o أنه يمكنه الاستجابة للمدخلات الصوتية في أقل من 232 ميلّي ثانية، بمتوسط 320 ميلّي ثانية، كما زودت الشركة نموذجها الجديد بأساليب مبتكرة لفهم الأصوات المتداخلة لمجموعة متحدثين بلغات مختلفة، والترجمة بينها مباشرة، علاوة على ذلك يستطيع النموذج فهم نبرة الأصوات، وتحليل ملامح الوجوه وفهم المشاعر من خلالها.
كما أشارت الشركة إلى أن هذا النموذج الجديد يحاكي أداء نموذج (GPT-4 Turbo) في التعامل مع النصوص باللغة الإنجليزية وعمليات البرمجة، ولكنه أسرع بنحو ملحوظ وأفضل في التعامل مع اللغات غير الإنجليزية، إذ يمكنه الآن العمل بما يصل إلى 50 لغة، مما يجعله أداة قوية للتواصل والترجمة للمستخدمين من جميع أنحاء العالم. وتشمل هذه اللغات الكورية والروسية والصينية والعربية وغيرها الكثير.
كما أنه أسرع مرتين في المعالجة، وأقل تكلفة في التشغيل بنسبة تبلغ 50%، ويبرز تفوق GPT-4o بنحو خاص في فهم المواد المرئية والمقاطع الصوتية مقارنة بالنماذج الحالية، إذ يُظهر مهارات استثنائية في تحليل المشاهد وفهم المعنى من خلال الصوت.
وقد أظهرت OpenAI في العرض التقديمي كيف سيتيح نموذج (GPT-4o) للمستخدمين التحدث مع ChatGPT، وكيف يمكنه تعرف المشاعر، والمساعدة في حل المعادلات الرياضية، وغير ذلك الكثير. ولم تخجل الشركة من إظهار بعض القيود في العرض التقديمي أيضًا، ولكنها كانت قليلة ومتباعدة.
ثالثًا، ما مزايا نموذج GPT-4o الجديد؟
1- مجاني للجميع:
بدأت شركة OpenAI أمس بإطلاق نموذج (GPT-4o) الجديد على نحو تدريجي في روبوت (ChatGPT) لمشتركي إصدار (ChatGPT Plus)، وسيصل إلى كافة المستخدمين، ومنهم أصحاب الحسابات المجانية خلال الأسابيع القادمة، ولكن سيتمتع المشتركون في الإصدارات المدفوعة بأداء أسرع حتى 5 مرات.
وأشارت موراتي إلى أن الشركة اتخذت خطوات عديدة لجعل الذكاء الاصطناعي يخدم البشرية بنحو أفضل، من خلال حرصها على تقديم مزايا ChatGPT مجانًا للجميع، بما يشمل إتاحة استخدامه دون الحاجة إلى إنشاء حساب من الأساس.
وبالإضافة إلى التحديثات الأصلية التي يقدمها نموذج (GPT-4o)، أعلنت الشركة إتاحة عدد كبير من المزايا لجميع المستخدمين مجانًا، مثل: الوصول إلى متجر الروبوتات البرمجية (GPTs Store)، وهي مزية كانت متاحة سابقًا لمستخدمي الإصدار المدفوع (ChatGPT Plus) فقط.
كما أتاحت إمكانية استخدام ChatGPT في التعامل مع الصور مجانًا، بحيث يمكن للمستخدم طرح أسئلة بشأن صور يلتقطها بهاتفه أو يحملها من الإنترنت، أو لقطات الشاشة.
بالإضافة إلى ذلك، أتاحت مزية تصفح الويب عبر ChatGPT مجانًا مع إمكانية استخدام مزية (الذاكرة) Memory، التي تساعد الروبوت في الاحتفاظ ببعض التفاصيل التي يرغب المستخدم في استخدامها فيما بعد.
وأتاحت OpenAI أيضًا استخدام مزية التحليل المتطور لأشكال البيانات المختلفة في صورة خرائط ورسوم بيانية مجانًا، وستبدأ المزايا الجديدة بالوصول تدريجيًا للمستخدمين خلال الأسابيع المقبلة.
2- يقدم أداءً أسرع بكثير من GPT-4 و GPT-4 Turbo:
يتميز نموذج (GPT-4o) بسرعة استجابة استثنائية، إذ يستطيع الرد على المدخلات الصوتية في أقل من 232 ميلّي ثانية، بمتوسط 320 ميلّي ثانية، وهو ما يُقارب زمن استجابة الإنسان في المحادثة.
قبل ظهور GPT-4o، كان يُمكن استخدام وضع الصوت للتفاعل مع ChatGPT، لكنه كان يُعاني من زمن تأخير كبير يبلغ 2.8 ثانية مع نموذج (GPT-3.5) و 5.4 ثانية مع (GPT-4) في المتوسط. ويعود ذلك إلى أن وضع الصوت كان يعمل كسلسلة من ثلاثة نماذج منفصلة:
- نموذج بسيط يحول الصوت إلى نص.
- يعالج نموذج GPT-3.5 أو GPT-4 النص ويُخرج نصًا آخر.
- نموذج بسيط ثالث يحول النص مرة أخرى إلى صوت.
تُؤدي هذه العملية إلى فقدان الكثير من المعلومات، إذ لا يستطيع نموذج (GPT-4)، ملاحظة نبرة الصوت أو وجود عدد من المتحدثين أو الضوضاء الخلفية بنحو مباشر. كما لا يستطيع إخراج ضحك أو غناء أو التعبير عن المشاعر.
وللتغلب على ذلك دربت الشركة نموذج (GPT-4o) الجديد للتعامل مع المدخلات المتعددة الوسائط التي تتضمن النص والصوت والمقاطع المرئية في الوقت نفسه، مما يعني أن جميع المدخلات والمخرجات تُعالج عبر الشبكة العصبية نفسها.
3- أقل تكلفة في التشغيل:
يتمتع GPT-4o بنطاق ذاكرة أوسع بكثير من نموذجي GPT-4 و GPT-3.5، مما يسمح له بمعالجة المزيد من المعلومات وفهم السياق بنحو أفضل. كما صممته الشركة ليكون أكثر كفاءة في استخدام الموارد، لذلك يتميز بأنه أسرع مرتين في الأداء من GPT-4 Turbo، وأقل تكلفة في التشغيل بنسبة قدرها 50%. وبالنظر إلى خفض التكلفة في تشغيل هذا النموذج، فمن المنطقي أن تطلقه OpenAI للجميع مجانًا.