أعلنت Google مؤخرًا أن Gemini 1.5 Pro سيزيد من نافذة سياق رمزية تحتوي على مليون رمز إلى 2 مليون. يبدو هذا مثيرًا للإعجاب، ولكن ما هو الرمز المميز في العالم على أي حال؟
في جوهرها، حتى برامج الدردشة الآلية تحتاج إلى مساعدة في معالجة النص الذي تتلقاه حتى تتمكن من فهم المفاهيم والتواصل معك بطريقة تشبه الإنسان. يتم تحقيق ذلك باستخدام نظام رمزي في مساحة الذكاء الاصطناعي التوليدي الذي يقوم بتقسيم البيانات بحيث يسهل استيعابها بواسطة نماذج الذكاء الاصطناعي.
ما هو رمز الذكاء الاصطناعي؟
رمز الذكاء الاصطناعي هو أصغر وحدة يمكن تقسيم الكلمة أو العبارة إليها عند معالجتها بواسطة نموذج لغة كبير (LLM). تمثل الرموز المميزة الكلمات أو علامات الترقيم أو الكلمات الفرعية، مما يسمح للنماذج بتحليل النص وتفسيره بكفاءة، وبالتالي إنشاء المحتوى بطريقة مماثلة تعتمد على الوحدة. وهذا مشابه لكيفية قيام الكمبيوتر بتحويل البيانات إلى أصفار وواحدات Unicode لتسهيل المعالجة. تسمح الرموز المميزة للنموذج بتحديد نمط أو علاقة داخل الكلمات والعبارات حتى يتمكنوا من التنبؤ بالمصطلحات المستقبلية والاستجابة في سياق مطالبتك.
عندما تقوم بإدخال مطالبة، تكون العبارة والكلمات طويلة جدًا بحيث لا يمكن لروبوت الدردشة تفسيرها كما هي – يجب تقسيمها إلى أجزاء أصغر قبل أن يتمكن LLM من معالجة الطلب. يتم تحويلها إلى رموز مميزة، ثم يتم تقديم الطلب وتحليله، ويتم إرجاع الرد إليك.
تسمى عملية تحويل النص إلى رموز مميزة بالرمز المميز. هناك العديد من طرق الترميز، والتي يمكن أن تختلف بناءً على المتغيرات، بما في ذلك تعليمات القاموس، ومجموعات الكلمات، واللغة، وما إلى ذلك. على سبيل المثال، تقوم طريقة الترميز القائمة على المسافة بتقسيم الكلمات بناءً على المسافات بينها. سيتم تقسيم عبارة “إنها تمطر في الخارج” إلى الرموز المميزة “إنها” و”تمطر” و”في الخارج”.
كيف تعمل رموز الذكاء الاصطناعي؟
و100 رمز يساوي 75 كلمة تقريبًا. تشير التحويلات الأخرى إلى أن جملة أو جملتين تساوي حوالي 30 رمزًا، وفقرة واحدة تساوي حوالي 100 رمزًا، و1500 كلمة تساوي حوالي 2048 رمزًا.
سواء كنت مستخدمًا عامًا أو مطورًا أو مؤسسة، فإن برنامج الذكاء الاصطناعي الذي تستخدمه يستخدم الرموز المميزة لأداء مهامه. بمجرد أن تبدأ في الدفع مقابل خدمات الذكاء الاصطناعي التوليدية، فإنك تدفع مقابل الرموز المميزة للحفاظ على الخدمة في مستواها الأمثل.
تمتلك معظم العلامات التجارية للذكاء الاصطناعي أيضًا قواعد أساسية حول كيفية عمل الرموز المميزة في نماذج الذكاء الاصطناعي الخاصة بها. لدى العديد من الشركات قيود على الرموز المميزة، والتي تضع حدًا أقصى لعدد الرموز المميزة التي يمكن معالجتها في دورة واحدة. إذا كان الطلب أكبر من حد الرمز المميز في LLM، فلن تتمكن الأداة من إكمال الطلب في دورة واحدة. على سبيل المثال، إذا قمت بإدخال مقالة مكونة من 10000 كلمة للترجمة إلى GPT بحد أقصى 4096 رمزًا مميزًا، فلن تتمكن من معالجتها بالكامل لتقديم إجابة مفصلة لأن مثل هذا الطلب سيتطلب 15000 رمزًا مميزًا على الأقل.
ومع ذلك، قامت الشركات بسرعة بتطوير قدرات حاملي شهادة الماجستير في القانون (LLM)، مما أضاف إلى قيود الرمز المميز مع الإصدارات الجديدة. يبلغ الحد الأقصى لطول الإدخال لنموذج BERT القائم على الأبحاث من Google 512 رمزًا مميزًا. لدى OpenAI's GPT-3.5 LLM، الذي يشغل الإصدار المجاني من ChatGPT، حدًا أقصى يبلغ 4096 رمزًا مميزًا للإدخال، في حين أن GPT-4 LLM، الذي يدير الإصدار المدفوع من ChatGPT، لديه حد أقصى 32768 رمزًا مميزًا للإدخال.
وهذا يعادل حوالي 64000 كلمة أو 50 صفحة من النص. يحتوي Google Gemini 1.5 Pro، الذي يوفر وظائف صوتية لاستوديو AI الخاص بالعلامة التجارية، على نافذة سياق قياسية تبلغ 128000 رمزًا مميزًا. يحتوي Claude 2.1 LLM على حد يصل إلى 200000 رمز مميز للسياق. وهذا يعادل حوالي 150.000 كلمة أو 500 صفحة من النص.
ما هي الأنواع المختلفة من رموز الذكاء الاصطناعي؟
هناك عدة أنواع من الرموز المميزة المستخدمة في مجال الذكاء الاصطناعي التوليدي والتي تسمح لـ LLMs بتحديد أصغر الوحدات المتاحة للتحليل. فيما يلي بعض الرموز المميزة التي تهم نموذج الذكاء الاصطناعي.
- رموز الكلمات هي كلمات تمثل وحدات فردية بمفردها، مثل “طائر” أو “منزل” أو “تلفزيون”.
- رموز الكلمات الفرعية هي كلمات يمكن اقتطاعها إلى وحدات أصغر، مثل تقسيم يوم الثلاثاء إلى “الثلاثاء” و”اليوم”.
- علامات الترقيم تحل محل علامات الترقيم، بما في ذلك الفواصل (،) والنقاط (.)، وغيرها.
- رموز الأرقام تحل محل الأرقام العددية، بما في ذلك الرقم “10”.
يمكن للرموز المميزة ملاحظة العديد من التعليمات الفريدة أثناء تنفيذ الاستعلامات وبيانات التدريب.
ما هي فوائد الرموز؟
هناك العديد من الفوائد للرموز المميزة في مجال الذكاء الاصطناعي التوليدي. في المقام الأول، تعمل بمثابة رابط بين اللغة البشرية ولغة الكمبيوتر عند العمل مع LLMs وعمليات الذكاء الاصطناعي الأخرى. تساعد الرموز المميزة النماذج على معالجة كميات كبيرة من البيانات مرة واحدة، وهو أمر مفيد بشكل خاص في مساحات المؤسسات التي تستخدم LLMs. يمكن للشركات العمل بحدود الرموز المميزة لتحسين أداء نماذج الذكاء الاصطناعي. مع طرح إصدارات LLM المستقبلية، ستسمح الرموز المميزة للنماذج بالحصول على ذاكرة أكبر من خلال حدود أعلى أو نوافذ سياقية.
تكمن الفوائد الأخرى للرموز المميزة في الجوانب التدريبية لـ LLMs. وبما أنها وحدات صغيرة، فيمكن استخدامها لتسهيل تحسين سرعة معالجة البيانات. ونظرًا للطبيعة التنبؤية للرموز المميزة، فإن لديهم فهمًا أكبر للمفاهيم ويحسنون التسلسلات بمرور الوقت. تساعد الرموز المميزة في تنفيذ جوانب متعددة الوسائط مثل الصور ومقاطع الفيديو والصوت في LLMs جنبًا إلى جنب مع برامج الدردشة الآلية لتحويل النص إلى كلام.
تتمتع الرموز المميزة أيضًا ببعض فوائد أمان البيانات وفعالية التكلفة، نظرًا لإعداد Unicode الخاص بها الذي يحمي البيانات الحيوية ويقتطع النص الأطول إلى نسخة مبسطة.