يلعب الذكاء الاصطناعي التوليدي والتعلم الآلي التشغيلي أدوارًا حاسمة في مشهد البيانات الحديث من خلال تمكين المؤسسات من الاستفادة من بياناتها لتشغيل منتجات جديدة وزيادة رضا العملاء. تُستخدم هذه التقنيات للمساعدين الافتراضيين وأنظمة التوصية وإنشاء المحتوى والمزيد. فهي تساعد المؤسسات على بناء ميزة تنافسية من خلال اتخاذ القرارات المستندة إلى البيانات، والأتمتة، والعمليات التجارية المحسنة، وتجارب العملاء.
يعد Apache Airflow جوهر عمليات تعلم الآلة للعديد من الفرق، ومع عمليات التكامل الجديدة لنماذج اللغات الكبيرة (LLMs)، يمكّن Airflow هذه الفرق من إنشاء تطبيقات ذات جودة إنتاجية مع أحدث التطورات في تعلم الآلة والذكاء الاصطناعي.
تبسيط تطوير تعلم الآلة
في كثير من الأحيان، يتم إنشاء نماذج التعلم الآلي والتحليلات التنبؤية بشكل منفصل، بعيدًا عن أنظمة الإنتاج والتطبيقات. تواجه المؤسسات تحديًا دائمًا لتحويل دفتر ملاحظات عالم البيانات الوحيد إلى تطبيق جاهز للإنتاج يتمتع بالاستقرار والقياس والامتثال وما إلى ذلك.
ومع ذلك، فإن المؤسسات التي تقوم بالتوحيد القياسي على نظام أساسي واحد لتنظيم سير عمل DataOps وMLOps لديها، تكون قادرة على تقليل ليس فقط احتكاك التطوير الشامل ولكن أيضًا تكاليف البنية التحتية وامتداد تكنولوجيا المعلومات. على الرغم من أن الأمر قد يبدو غير بديهي، إلا أن هذه الفرق تستفيد أيضًا من المزيد من الخيارات. عندما تكون منصة التنسيق المركزية، مثل Apache Airflow، مفتوحة المصدر وتتضمن عمليات تكامل مع كل أداة ومنصة بيانات تقريبًا، يمكن لفرق البيانات وتعلم الآلة اختيار الأدوات التي تناسب احتياجاتهم بشكل أفضل مع الاستمتاع بفوائد التوحيد القياسي والحوكمة واستكشاف الأخطاء وإصلاحها بشكل مبسط ، وقابلية إعادة الاستخدام.
يعد Apache Airflow وAstro (منصة تنسيق Airflow المُدارة بالكامل من قبل Astronomer) المكان الذي يجتمع فيه مهندسو البيانات ومهندسو تعلم الآلة لإنشاء قيمة تجارية من تعلم الآلة التشغيلي. مع وجود عدد هائل من خطوط أنابيب هندسة البيانات التي تعمل على Airflow كل يوم في كل صناعة وقطاع، فهي العمود الفقري لعمليات البيانات الحديثة، ويمكن لفرق ML الاستفادة من هذا الأساس ليس فقط للاستدلال النموذجي ولكن أيضًا للتدريب والتقييم والمراقبة .
تحسين تدفق الهواء لتطبيقات ML المحسنة
مع استمرار المؤسسات في إيجاد طرق للاستفادة من نماذج اللغات الكبيرة، أصبحت Airflow بشكل متزايد في مقدمة ومركز تفعيل أشياء مثل معالجة البيانات غير المنظمة، وتوليد الاسترجاع المعزز (RAG)، ومعالجة التعليقات، والضبط الدقيق للنماذج الأساسية. لدعم حالات الاستخدام الجديدة هذه ولتوفير نقطة بداية لمستخدمي Airflow، عمل Astronomer مع مجتمع Airflow لإنشاء Ask Astro – كتطبيق مرجعي عام لـ RAG مع Airflow للذكاء الاصطناعي للمحادثة.
على نطاق أوسع، قاد Astronomer تطوير عمليات تكامل جديدة مع قواعد بيانات المتجهات وموفري LLM لدعم هذا النوع الجديد من التطبيقات وخطوط الأنابيب اللازمة لإبقائها آمنة وحديثة وقابلة للإدارة.
اتصل بخدمات LLM وقواعد بيانات المتجهات الأكثر استخدامًا
يوفر Apache Airflow، بالاشتراك مع بعض قواعد بيانات المتجهات الأكثر استخدامًا (Weaviate، وPinecone، وOpenSearch، وpgvector) وموفري معالجة اللغات الطبيعية (NLP) (OpenAI، وCohere)، إمكانية التوسعة من خلال أحدث التطورات في تطوير المصادر المفتوحة. معًا، يتيحون تجربة من الدرجة الأولى في تطوير RAG لتطبيقات مثل الذكاء الاصطناعي للمحادثة وروبوتات الدردشة وتحليل الاحتيال والمزيد.
OpenAI
OpenAI هي شركة أبحاث ونشر في مجال الذكاء الاصطناعي توفر واجهة برمجة تطبيقات للوصول إلى أحدث النماذج مثل GPT-4 وDALL·E 3. يقدم موفر OpenAI Airflow وحدات لدمج OpenAI مع Airflow بسهولة. يمكن للمستخدمين إنشاء تضمينات للبيانات، وهي خطوة أساسية في البرمجة اللغوية العصبية (NLP) مع التطبيقات التي تدعم LLM.
عرض البرنامج التعليمي ← تنظيم عمليات OpenAI باستخدام Apache Airflow
التحم
Cohere عبارة عن منصة البرمجة اللغوية العصبية (NLP) التي توفر واجهة برمجة التطبيقات (API) للوصول إلى LLMs المتطورة. يقدم موفر Cohere Airflow وحدات لدمج Cohere مع Airflow بسهولة. يمكن للمستخدمين الاستفادة من برامج LLM التي تركز على المؤسسات لإنشاء تطبيقات البرمجة اللغوية العصبية (NLP) بسهولة باستخدام بياناتهم الخاصة.
عرض البرنامج التعليمي → تنسيق Cohere LLMs باستخدام Apache Airflow
ويفيات
Weaviate هي قاعدة بيانات متجهة مفتوحة المصدر، تقوم بتخزين تضمينات عالية الأبعاد للكائنات مثل النص أو الصور أو الصوت أو الفيديو. يقدم موفر Weaviate Airflow وحدات لدمج Weaviate بسهولة مع Airflow. يمكن للمستخدمين معالجة عمليات تضمين المتجهات عالية الأبعاد باستخدام قاعدة بيانات متجهة مفتوحة المصدر، والتي توفر مجموعة غنية من الميزات وقابلية التوسع الاستثنائية والموثوقية.
عرض البرنامج التعليمي ← تنظيم عمليات Weaviate باستخدام Apache Airflow
com.pgvector
pgvector هو امتداد مفتوح المصدر لقواعد بيانات PostgreSQL يضيف القدرة على تخزين عمليات تضمين الكائنات عالية الأبعاد والاستعلام عنها. يقدم مزود pgvector Airflow وحدات لدمج pgvector بسهولة مع Airflow. يمكن للمستخدمين فتح وظائف قوية للعمل مع المتجهات في مساحة عالية الأبعاد باستخدام هذا الامتداد مفتوح المصدر لقاعدة بيانات PostgreSQL الخاصة بهم.
عرض البرنامج التعليمي ← تنظيم عمليات pgvector باستخدام Apache Airflow
كوز الصنوبر
Pinecone عبارة عن منصة قاعدة بيانات متجهة خاصة مصممة للتعامل مع تطبيقات الذكاء الاصطناعي واسعة النطاق القائمة على المتجهات. يقدم مزود Pinecone Airflow وحدات لدمج Pinecone بسهولة مع Airflow.
عرض البرنامج التعليمي ← تنظيم عمليات كوز الصنوبر باستخدام Apache Airflow
البحث المفتوح
OpenSearch هو محرك بحث وتحليل موزع مفتوح المصدر يعتمد على Apache Lucene. فهو يوفر إمكانات بحث متقدمة على نصوص كبيرة إلى جانب المكونات الإضافية القوية للتعلم الآلي. يقدم موفر OpenSearch Airflow وحدات لدمج OpenSearch مع Airflow بسهولة.
عرض البرنامج التعليمي ← تنظيم عمليات OpenSearch باستخدام Apache Airflow
معلومات إضافية
من خلال تمكين الفرق التي تركز على البيانات من دمج خطوط البيانات ومعالجة البيانات بسهولة أكبر مع سير عمل تعلم الآلة، يمكن للمؤسسات تبسيط تطوير الذكاء الاصطناعي التشغيلي، وتحقيق إمكانات الذكاء الاصطناعي ومعالجة اللغة الطبيعية في بيئة تشغيلية. على استعداد للغوص أعمق بنفسك؟ اكتشف الوحدات المتوفرة المصممة لسهولة التكامل — تفضل بزيارة Astro Registry للاطلاع على أحدث نماذج DAGs الخاصة بالذكاء الاصطناعي/تعلم الآلة.