طور الباحثون هجومًا جديدًا يكشف عن ثغرات الخصوصية من خلال تحديد ما إذا كانت بياناتك قد استخدمت لتدريب نماذج الذكاء الاصطناعي.
تم تطوير هذه الطريقة ، التي تحمل اسم Camia (هجوم استدلال العضوية على دراية بالسياق) ، من قبل باحثين من Brave والجامعة الوطنية في سنغافورة وهي أكثر فعالية بكثير من المحاولات السابقة في تحقيق “ذاكرة” نماذج الذكاء الاصطناعى.
هناك قلق متزايد من “حفظ البيانات” في الذكاء الاصطناعي ، حيث تخزن النماذج عن غير قصد ويمكن أن تسرب المعلومات الحساسة من مجموعات التدريب الخاصة بهم. في الرعاية الصحية ، يمكن أن يكشف نموذج مدرب على الملاحظات السريرية عن طريق الخطأ عن معلومات حساسة للمريض. بالنسبة للشركات ، إذا تم استخدام رسائل البريد الإلكتروني الداخلية في التدريب ، فقد يتمكن المهاجم من خداع LLM في إعادة إنتاج اتصالات الشركة الخاصة.
تم تضخيم مخاوف الخصوصية هذه من خلال الإعلانات الحديثة ، مثل خطة LinkedIn لاستخدام بيانات المستخدم لتحسين نماذج الذكاء الاصطناعى التوليدي ، مما يثير أسئلة حول ما إذا كان المحتوى الخاص قد يظهر في نص تم إنشاؤه.
لاختبار هذا التسرب ، يستخدم خبراء الأمن هجمات استنتاج العضوية ، أو MIAS. بعبارات بسيطة ، تسأل MIA النموذج سؤالًا مهمًا: “هل رأيت هذا المثال أثناء التدريب؟”. إذا تمكن المهاجم من اكتشاف الإجابة بشكل موثوق ، فإنه يثبت أن النموذج يتسرب من المعلومات حول بيانات التدريب الخاصة به ، مما يشكل مخاطر الخصوصية المباشرة.
الفكرة الأساسية هي أن النماذج غالبًا ما تتصرف بشكل مختلف عند معالجة البيانات التي تم تدريبها مقارنة بالبيانات الجديدة غير المرئية. تم تصميم MIAS لاستغلال هذه الفجوات السلوكية بشكل منهجي.
حتى الآن ، كانت معظم MIAs غير فعالة إلى حد كبير ضد AIS التوليدي الحديث. وذلك لأنها تم تصميمها في الأصل لنماذج تصنيف أبسط تعطي إخراجًا واحدًا لكل إدخال. ومع ذلك ، فإن LLMS تنشئ نصًا رمزيًا من خلال كل كلمة جديدة تتأثر بالكلمات التي جاءت قبلها. تعني هذه العملية المتسلسلة أن ببساطة النظر إلى الثقة الشاملة لمجموعة من النص يغيب عن ديناميات لحظة إلى أخرى حيث يحدث التسرب فعليًا.
تتمثل البصيرة الرئيسية وراء هجوم خصوصية Camia الجديد في أن حفظ نموذج الذكاء الاصطناعى يعتمد على السياق. يعتمد نموذج الذكاء الاصطناعى على الاحتفاظ بشكل كبير عندما يكون غير متأكد مما يقوله بعد ذلك.
على سبيل المثال ، بالنظر إلى البادئة “هاري بوتر هو … كتبه … عالم هاري …” ، يمكن للنموذج أن يخمن بسهولة أن الرمز المميز التالي هو “بوتر” من خلال التعميم ، لأن السياق يوفر أدلة قوية. في هذه الحالة ، لا يشير التنبؤ الواثق إلى الاحتفاظ. ومع ذلك ، إذا كانت البادئة هي ببساطة “هاري” ، فإن التنبؤ “بوتر” يصبح أكثر صعوبة بكثير دون حفظ تسلسل تدريب محدد. يعد التنبؤ منخفض الخسارة وعالي الثقة في هذا السيناريو الغامض مؤشرًا أقوى بكثير على الحفظ.
كاميا هي أول هجوم خصوصية مصمم خصيصًا لاستغلال هذه الطبيعة التوليدية لنماذج الذكاء الاصطناعى الحديثة. إنه يتتبع كيفية تطور عدم اليقين للنموذج أثناء توليد النص ، مما يسمح له بقياس مدى سرعة انتقال الذكاء الاصطناعي من “التخمين” إلى “الاستدعاء الواثق”. من خلال العمل على مستوى الرمز المميز ، يمكن أن يتكيف مع المواقف التي يكون فيها عدم اليقين المنخفض ناتجًا عن التكرار البسيط ويمكنه تحديد الأنماط الدقيقة للحفل الحقيقي الذي تفتقده الطرق الأخرى.
اختبر الباحثون كاميا على معيار Mimir عبر عدة طرز Pythia و GPT-Neo. عند مهاجمة نموذج Pythia 2.8B على مجموعة بيانات Arxiv ، ضاعفت Camia تقريبًا دقة الكشف عن الأساليب السابقة. لقد زاد معدل الإيجابية الحقيقية من 20.11 ٪ إلى 32.00 ٪ مع الحفاظ على معدل إيجابي منخفض للغاية قدره 1 ٪ فقط.
إطار الهجوم هو أيضا فعال حسابا. على وحدة معالجة الرسومات A100 واحدة ، يمكن لـ Camia معالجة 1000 عينة في حوالي 38 دقيقة ، مما يجعلها أداة عملية لنماذج التدقيق.
يذكر هذا العمل صناعة الذكاء الاصطناعى حول مخاطر الخصوصية في تدريب النماذج المقلقة على مجموعات البيانات الواسعة وغير المطلقة. يأمل الباحثون أن يحفز عملهم تطوير المزيد من تقنيات الحفاظ على الخصوصية والمساهمة في الجهود المستمرة لموازنة فائدة الذكاء الاصطناعي بخصوصية المستخدم الأساسية.
انظر أيضا: تقوم Samsung بتقييم الإنتاجية الحقيقية لنماذج AI للمؤسسات
هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. يعد الحدث الشامل جزءًا من TechEx ويتم تحديده مع الأحداث التكنولوجية الرائدة الأخرى ، انقر هنا لمزيد من المعلومات.
AI News مدعومة من قبل Techforge Media. استكشاف أحداث وندوات الويب الأخرى القادمة هنا.