قبل معرض الذكاء الاصطناعي والبيانات الضخمة في أوروبا، التقت AI News مع إيفو إيفرتس، كبير مهندسي الحلول في Databricks، لمناقشة العديد من التطورات الرئيسية التي تهدف إلى تشكيل مستقبل الذكاء الاصطناعي مفتوح المصدر وإدارة البيانات.
أحد إنجازات Databricks البارزة هو نموذج DBRX، الذي وضع معيارًا جديدًا لنماذج اللغات الكبيرة المفتوحة (LLMs).
يوضح إيفرتس قائلاً: “يتفوق DBRX في الأداء على جميع نماذج الذكاء الاصطناعي الرائدة الأخرى مفتوحة المصدر وفقًا للمعايير القياسية ولديه استدلال أسرع بما يصل إلى 2x من النماذج مثل Llama2-70B”. “لقد تم تدريبه بشكل أكثر كفاءة بسبب مجموعة متنوعة من التقدم التكنولوجي.
“من وجهة نظر الجودة، نعتقد أن DBRX هو أفضل نموذج مفتوح المصدر على الإطلاق، وعندما نشير إلى “الأفضل” فهذا يعني مجموعة واسعة من معايير الصناعة، بما في ذلك فهم اللغة (MMLU)، والبرمجة (HumanEval)، والرياضيات ( GSM8K).”
يهدف نموذج الذكاء الاصطناعي مفتوح المصدر إلى “إضفاء الطابع الديمقراطي على تدريب حاملي شهادات الماجستير في القانون المخصصين بما يتجاوز حفنة صغيرة من مقدمي النماذج وإظهار للمؤسسات أن بإمكانها تدريب حاملي شهادات الماجستير في القانون على مستوى عالمي على بياناتهم بطريقة فعالة من حيث التكلفة.”
وتماشيًا مع التزامها بالنظم البيئية المفتوحة، تمتلك Databricks أيضًا كتالوج Unity مفتوح المصدر.
ويشير إيفرتس إلى أن “كتالوج Unity Catalog مفتوح المصدر يعزز اعتماده عبر الأنظمة الأساسية السحابية (مثل AWS وAzure) والبنى التحتية المحلية”. “تسمح هذه المرونة للمؤسسات بتطبيق سياسات إدارة البيانات بشكل موحد بغض النظر عن مكان تخزين البيانات أو معالجتها.”
يعالج Unity Catalog تحديات انتشار البيانات وضوابط الوصول غير المتسقة من خلال ميزات متنوعة:
- إدارة الوصول إلى البيانات المركزية: يقول إيفرتس: “يقوم Unity Catalog بإدارة أصول البيانات بشكل مركزي، مما يسمح للمؤسسات بإدارة عناصر التحكم في الوصول بطريقة موحدة”.
- التحكم في الوصول المستند إلى الدور (RBAC): وفقًا لإيفرتس، فإن Unity Catalog “يطبق التحكم في الوصول المستند إلى الأدوار (RBAC)، مما يسمح للمؤسسات بتعيين الأدوار والأذونات بناءً على ملفات تعريف المستخدمين”.
- نسب البيانات والتدقيق: يوضح إيفرتس أن هذه الميزة “تساعد المؤسسات على مراقبة استخدام البيانات وتبعياتها، مما يسهل تحديد البيانات الزائدة أو القديمة وإزالتها”. ويضيف أنه أيضًا “يسجل جميع عمليات الوصول إلى البيانات والتغييرات، مما يوفر مسارًا تفصيليًا للتدقيق لضمان الامتثال لسياسات أمان البيانات”.
- الدعم عبر السحابة والمختلط: ويشير إيفرتس إلى أن Unity Catalog “مصمم لإدارة حوكمة البيانات في البيئات السحابية المتعددة والهجينة” و”يضمن إدارة البيانات بشكل موحد، بغض النظر عن مكان وجودها”.
طرحت الشركة Databricks AI/BI، وهو منتج جديد لذكاء الأعمال يستفيد من الذكاء الاصطناعي التوليدي لتعزيز استكشاف البيانات وتصورها. يعتقد إيفرتس أن “حل ذكاء الأعمال الذكي حقًا يحتاج إلى فهم الدلالات الفريدة والفروق الدقيقة للأعمال للإجابة بشكل فعال على أسئلة مستخدمي الأعمال.”
يتضمن نظام الذكاء الاصطناعي/ذكاء الأعمال مكونين رئيسيين:
- لوحات المعلومات: يصف إيفرتس ذلك بأنه “واجهة منخفضة التعليمات البرمجية مدعومة بالذكاء الاصطناعي لإنشاء لوحات معلومات تفاعلية سريعة وتوزيعها”. يتضمن ذلك “ميزات ذكاء الأعمال القياسية مثل المرئيات والتصفية المتبادلة والتقارير الدورية دون الحاجة إلى خدمات إدارية إضافية.”
- الجني: يشرح إيفرتس ذلك على أنه “واجهة محادثة لمعالجة الأسئلة المخصصة وأسئلة المتابعة من خلال اللغة الطبيعية”. ويضيف أنها “تتعلم من البيانات الأساسية لإنشاء تصورات واقتراحات قابلة للتكيف استجابةً لاستفسارات المستخدم، والتحسين بمرور الوقت من خلال التعليقات وتقديم الأدوات للمحللين لتحسين مخرجاتها”.
يذكر Everts أن Databricks AI/BI مصمم لتوفير “فهم عميق لدلالات بياناتك، مما يتيح تحليل بيانات الخدمة الذاتية للجميع في المؤسسة.” ويشير إلى أنه مدعوم من “نظام الذكاء الاصطناعي المركب الذي يتعلم باستمرار من الاستخدام عبر مجموعة بيانات المؤسسة بأكملها، بما في ذلك خطوط أنابيب ETL، والنسب، والاستعلامات الأخرى.”
وكشفت Databricks أيضًا عن Mosaic AI، الذي يصفه إيفرتس بأنه “منصة شاملة لبناء ونشر وإدارة التعلم الآلي وتطبيقات الذكاء الاصطناعي التوليدية، ودمج بيانات المؤسسة لتحسين الأداء والحوكمة”.
يقدم Mosaic AI العديد من المكونات الرئيسية، والتي يوضحها إيفرتس:
- الأدوات الموحدة: يوفر “أدوات لبناء ونشر وتقييم وإدارة حلول الذكاء الاصطناعي والتعلم الآلي، ودعم النماذج التنبؤية وتطبيقات الذكاء الاصطناعي التوليدية.”
- أنماط الذكاء الاصطناعي التوليدية: “يدعم الهندسة السريعة، والجيل المعزز للاسترجاع (RAG)، والضبط الدقيق، والتدريب المسبق، مما يوفر المرونة مع تطور احتياجات العمل.”
- إدارة النموذج المركزي: “يتيح عرض النماذج النشر المركزي والحوكمة والاستعلام عن نماذج الذكاء الاصطناعي، بما في ذلك نماذج تعلم الآلة المخصصة ونماذج الأساس.”
- المراقبة والحوكمة: “تضمن مراقبة Lakehouse وUnity Catalog المراقبة الشاملة والحوكمة وتتبع النسب عبر دورة حياة الذكاء الاصطناعي.”
- LLMs مخصصة فعالة من حيث التكلفة: “يتيح التدريب وتقديم نماذج لغوية كبيرة مخصصة بتكاليف أقل بكثير، ومصممة خصيصًا لمجالات تنظيمية محددة.”
يسلط إيفرتس الضوء على أن نهج Mosaic AI في ضبط النماذج الأساسية وتخصيصها يتضمن ميزات فريدة مثل “أوقات بدء التشغيل السريعة” من خلال “استخدام التخزين المؤقت للنموذج الأساسي داخل المجموعة”، و”التقييم الفوري المباشر” حيث يمكن للمستخدمين “تتبع كيفية تغير استجابات النموذج طوال الوقت”. عملية التدريب”، ودعم “نقاط التفتيش المخصصة المدربة مسبقًا”.
وفي قلب هذه الابتكارات تكمن منصة ذكاء البيانات، التي يقول إيفرتس إنها “تعمل على تحويل إدارة البيانات باستخدام نماذج الذكاء الاصطناعي لاكتساب رؤى عميقة حول دلالات بيانات المؤسسة”. تجمع المنصة بين ميزات بحيرات البيانات ومستودعات البيانات، وتستخدم تقنية Delta Lake لمعالجة البيانات في الوقت الفعلي، وتتضمن مشاركة Delta لتبادل البيانات بشكل آمن عبر الحدود التنظيمية.
يوضح إيفرتس أن منصة ذكاء البيانات تلعب دورًا حاسمًا في دعم مبادرات الذكاء الاصطناعي الجديدة ومشاركة البيانات من خلال توفير:
- منصة موحدة للبيانات والذكاء الاصطناعي “يجمع بين ميزات بحيرات البيانات ومستودعات البيانات في بنية واحدة.”
- دلتا ليك لمعالجة البيانات في الوقت الحقيقيمما يضمن “حوكمة البيانات الموثوقة ومعاملات ACID ومعالجة البيانات في الوقت الفعلي.”
- التعاون وتبادل البيانات عبر Delta Sharing، مما يتيح “مشاركة البيانات بشكل آمن ومفتوح عبر الحدود التنظيمية”.
- دعم متكامل للتعلم الآلي وتطوير نماذج الذكاء الاصطناعي مع المكتبات الشائعة مثل MLflow وPyTorch وTensorFlow.
- قابلية التوسع والأداء من خلال بنيتها السحابية الأصلية ومحرك Photon، “محرك تنفيذ الاستعلام الأمثل”.
باعتبارها الراعي الرئيسي لمعرض الذكاء الاصطناعي والبيانات الضخمة في أوروبا، تخطط Databricks لعرض حلولها مفتوحة المصدر للذكاء الاصطناعي وحوكمة البيانات خلال الحدث.
يقول إيفرتس: “في جناحنا، سنعرض أيضًا كيفية إنشاء ونشر – باستخدام تطبيقات Lakehouse – تطبيق GenAI مخصص من البداية باستخدام نماذج مفتوحة المصدر من Hugging Face وبيانات من Unity Catalog”.
“باستخدام تطبيق GenAI الخاص بنا، يمكنك إنشاء صورة كرتونية خاصة بك، وكلها تعمل على منصة ذكاء البيانات.”

طوب البيانات سيتم تبادل المزيد من خبراتهم في هذا العام معرض الذكاء الاصطناعي والبيانات الضخمة في أوروبا. تفضل بزيارة جناح Databricks في الجناح رقم 280 لسماع المزيد عن الذكاء الاصطناعي المفتوح وتحسين إدارة البيانات.
استكشف الأحداث والندوات عبر الإنترنت القادمة الأخرى المتعلقة بتكنولوجيا المؤسسات والمدعومة من TechForge هنا.