طورت جوجل سلسلة من النماذج اللغوية التي يمكنها الإجابة عن الأسئلة بخصوص الحقائق الرقمية بدقة كبرى مقارنةً بالخوارزميات السابقة.
وأتاحت الشركة التعليمات البرمجية المصدرية لسلسلة DataGemma عبر منصة Hugging Face.
وصممت سلسلة DataGemma للإجابة عن أسئلة المستخدمين بخصوص الحقائق الإحصائية، مثل متوسط إيرادات الشركات في قطاع سوق معين.
كما تجيب السلسلة عن الاستفسارات باستخدام المعلومات من Data Commons، وهو مستودع مجاني للمعلومات تديره جوجل.
ويحتوي المستودع على أكثر من 240 مليار نقطة بيانات من مصادر، مثل الأمم المتحدة ومنظمة الصحة العالمية ومراكز السيطرة على الأمراض ومكاتب الإحصاء.
وتعتمد سلسلة DataGemma على Gemma 2 27B، وهو نموذج لغوي كبير مفتوح المصدر أصدرته جوجل في شهر يونيو ويتميز بمقدار 27 مليار معلمة. وتقول جوجل Gemma 2 27B قادر على منافسة أداء النماذج اللغوية الكبيرة مع ضعف عدد المعلمات.
ووفقًا للشركة، نعتمد سلسلة DataGemma على إصدار من Gemma 2 27B مُحسن خصوصًا لمعالجة الحقائق الرقمية.
ويتفاعل النموذج مع Data Commons، مستودع المعلومات الذي يستمد منه تلك الحقائق، من خلال شريط بحث باللغة الطبيعية.
وقالت جوجل في تدوينة: “تستخدم سلسلة DataGemma واجهة اللغة الطبيعية لمستودع Data Commons لطرح الأسئلة بدلًا من الحاجة إلى معرفة مخطط البيانات المحدد أو واجهة برمجة التطبيقات لمجموعات البيانات الأساسية، وتكمن النقطة الدقيقة في تدريب النموذج اللغوي الكبير لمعرفة متى يسأل”.
وطورت جوجل نسختين من سلسلة DataGemma، وتتبنى كل نسخة نهجًا مختلفًا للإجابة عن أسئلة المستخدم.
وتستفيد النسخة الأولى من طريقة تعرف باسم RIG، أو التوليد المتداخل للاسترجاع، لمعالجة الاستعلامات.
وعندما يطرح المستخدم سؤالًا، لا يولد النموذج إجابة بناءً على قاعدة معرفته، بل يجلب المعلومات المطلوبة من مستودع Data Commons، ومن ثم يستخدم النموذج اللغوي الكبير البيانات المستردة لتوليد استجابة سريعة.
وتستفيد النسخة الثانية من طريقة إدارة البيانات RAG، أو التوليد المعزز للاسترجاع. لمعالجة الاستعلامات.
وعندما يُدخل المستخدم استعلامًا، يسترد النموذج المعلومات ذات الصلة بالمطالبة من مستودع Data Commons، ومن ثم يرسل المعلومات المجمعة إلى نموذج Gemini 1.5 Pro الذي يولد إجابة.
ووفقًا لمجلة MIT Technology Review، فإن نسخة RIG من سلسلة DataGemma تسترجع بنجاح الحقائق الرقمية من مستودع Data Commons بمقدار 58 في المئة.
وفي المقابل، نجحت نسخة RAG من سلسلة DataGemma في توليد إجابات صحيحة بمقدار يتراوح ما بين 80 في المئة و 94 في المئة من الإجابات التي تلقتها خلال اختبارات جوجل.
وتخطط جوجل لتحسين سلسلة DataGemma من خلال تدريبها على معلومات إضافية، بالإضافة إلى زيادة عدد الأسئلة التي يمكن للسلسلة الإجابة عنها من مئات الأسئلة إلى ملايين الأسئلة.