أطلقت OpenAI نموذجها الرائد الجديد، GPT-4o، الذي يدمج المدخلات والمخرجات النصية والصوتية والمرئية بسلاسة، ويعد بتعزيز طبيعة التفاعلات الآلية.
تم تصميم GPT-4o، حيث يشير الحرف “o” إلى “omni”، لتلبية مجموعة واسعة من طرائق الإدخال والإخراج. أعلن OpenAI: “إنه يقبل أي مجموعة من النصوص والصوت والصورة كمدخلات ويولد أي مجموعة من مخرجات النص والصوت والصورة”.
يمكن للمستخدمين توقع وقت استجابة يصل إلى 232 مللي ثانية، مما يعكس سرعة المحادثة البشرية، مع متوسط وقت استجابة مثير للإعجاب يبلغ 320 مللي ثانية.
قدرات رائدة
يمثل إدخال GPT-4o قفزة عن سابقاتها من خلال معالجة جميع المدخلات والمخرجات من خلال شبكة عصبية واحدة. يمكّن هذا الأسلوب النموذج من الاحتفاظ بالمعلومات الهامة والسياق الذي تم فقده سابقًا في مسار النموذج المنفصل المستخدم في الإصدارات السابقة.
قبل GPT-4o، كان بإمكان “وضع الصوت” التعامل مع التفاعلات الصوتية بزمن انتقال يبلغ 2.8 ثانية لـ GPT-3.5 و5.4 ثانية لـ GPT-4. تضمن الإعداد السابق ثلاثة نماذج متميزة: واحد لتحويل الصوت إلى نص، والآخر للاستجابات النصية، والثالث لتحويل النص إلى صوت مرة أخرى. أدى هذا التجزئة إلى فقدان الفروق الدقيقة مثل النغمة ومكبرات الصوت المتعددة وضوضاء الخلفية.
كحل متكامل، يتميز GPT-4o بتحسينات ملحوظة في فهم الرؤية والصوت. يمكنه أداء مهام أكثر تعقيدًا مثل تنسيق الأغاني وتوفير الترجمات في الوقت الفعلي وحتى إنشاء مخرجات تحتوي على عناصر تعبيرية مثل الضحك والغناء. تشمل الأمثلة على قدراتها الواسعة الإعداد للمقابلات، وترجمة اللغات بسرعة، وإنشاء استجابات خدمة العملاء.
علق ناثانيال ويتيمور، المؤسس والرئيس التنفيذي لشركة Superintelligent قائلاً: “ستكون إعلانات المنتجات بطبيعتها أكثر إثارة للانقسام من إعلانات التكنولوجيا لأنه من الصعب معرفة ما إذا كان المنتج سيكون مختلفًا حقًا حتى تتفاعل معه فعليًا. وخاصة عندما يتعلق الأمر بنمط مختلف من التفاعل بين الإنسان والحاسوب، هناك مجال أكبر للمعتقدات المتنوعة حول مدى فائدته.
“ومع ذلك، فإن حقيقة عدم الإعلان عن GPT-4.5 أو GPT-5 تعمل أيضًا على صرف انتباه الناس عن التقدم التكنولوجي الذي يعتبره هذا نموذجًا متعدد الوسائط في الأصل. إنه ليس نموذج نصي مع إضافة صوت أو صورة؛ إنه رمز متعدد الوسائط للداخل، ورمز متعدد الوسائط للخارج. وهذا يفتح مجموعة كبيرة من حالات الاستخدام التي ستستغرق بعض الوقت حتى تصل إلى الوعي.”
الأداء والسلامة
يطابق GPT-4o مستويات أداء GPT-4 Turbo في مهام النص والترميز باللغة الإنجليزية ولكنه يتفوق بشكل كبير في اللغات غير الإنجليزية، مما يجعله نموذجًا أكثر شمولاً وتنوعًا. إنه يضع معيارًا جديدًا في التفكير مع درجة عالية تبلغ 88.7% في 0-shot COT MMLU (أسئلة المعرفة العامة) و87.2% في 5-shot no-CoT MMLU.
يتفوق النموذج أيضًا في معايير الصوت والترجمة، متجاوزًا النماذج الحديثة السابقة مثل Whisper-v3. في التقييمات متعددة اللغات والرؤية، يُظهر أداءً فائقًا، مما يعزز قدرات OpenAI المتعددة اللغات والسمعية والبصرية.
قامت OpenAI بدمج تدابير سلامة قوية في GPT-4o حسب التصميم، ودمج تقنيات لتصفية بيانات التدريب وتحسين السلوك من خلال ضمانات ما بعد التدريب. تم تقييم النموذج من خلال إطار الاستعداد ويتوافق مع التزامات OpenAI الطوعية. تشير التقييمات في مجالات مثل الأمن السيبراني والإقناع واستقلالية النموذج إلى أن GPT-4o لا يتجاوز مستوى المخاطرة “المتوسطة” عبر أي فئة.
تضمنت تقييمات السلامة الإضافية تشكيل فريق أحمر خارجي واسع النطاق مع أكثر من 70 خبيرًا في مجالات مختلفة، بما في ذلك علم النفس الاجتماعي والتحيز والإنصاف والمعلومات المضللة. ويهدف هذا التدقيق الشامل إلى التخفيف من المخاطر التي تسببها الأساليب الجديدة لـGPT-4o.
التوفر والتكامل في المستقبل
بدءًا من اليوم، تتوفر إمكانيات النص والصورة الخاصة بـ GPT-4o في ChatGPT، بما في ذلك طبقة مجانية وميزات موسعة لمستخدمي Plus. سيدخل وضع الصوت الجديد المدعوم من GPT-4o في اختبار ألفا داخل ChatGPT Plus في الأسابيع المقبلة.
يمكن للمطورين الوصول إلى GPT-4o من خلال واجهة برمجة التطبيقات (API) لمهام النص والرؤية، والاستفادة من سرعته المضاعفة وسعره المنخفض إلى النصف وحدود المعدل المحسنة مقارنةً بـ GPT-4 Turbo.
تخطط OpenAI لتوسيع وظائف الصوت والفيديو الخاصة بـ GPT-4o لتشمل مجموعة مختارة من الشركاء الموثوقين عبر واجهة برمجة التطبيقات (API)، مع توقع طرحها على نطاق أوسع في المستقبل القريب. تهدف استراتيجية الإصدار المرحلي هذه إلى ضمان إجراء اختبار شامل للسلامة وسهولة الاستخدام قبل إتاحة النطاق الكامل للقدرات للعامة.
“من المهم للغاية أنهم جعلوا هذا النموذج متاحًا مجانًا للجميع، بالإضافة إلى جعل واجهة برمجة التطبيقات (API) أرخص بنسبة 50%. وأوضح وايتمور أن هذه زيادة هائلة في إمكانية الوصول.
تدعو OpenAI تعليقات المجتمع لتحسين GPT-4o بشكل مستمر، مع التركيز على أهمية مدخلات المستخدم في تحديد وسد الفجوات التي قد يظل فيها أداء GPT-4 Turbo متفوقًا.
(حقوق الصورة: OpenAI)
أنظر أيضا: تتخذ OpenAI خطوات لتعزيز شفافية المحتوى الناتج عن الذكاء الاصطناعي
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الضخمة من قادة الصناعة؟ اطلع على معرض الذكاء الاصطناعي والبيانات الضخمة الذي يقام في أمستردام وكاليفورنيا ولندن. ويقام هذا الحدث الشامل في موقع مشترك مع أحداث رائدة أخرى بما في ذلك مؤتمر الأتمتة الذكية، وBlockX، وأسبوع التحول الرقمي، ومعرض الأمن السيبراني والسحابي.
استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات والمدعومة من TechForge هنا.