أطلق مزود الخدمة السحابية كلاود فلير Cloudflare أداة جديدة مجانية لمنع استخلاص الروبوتات للبيانات من مواقع الويب المستضافة عبر منصتها لتدريب نماذج الذكاء الاصطناعي.
ويسمح بعض موردي الذكاء الاصطناعي، ويشمل ذلك جوجل وآبل و OpenAI، لأصحاب مواقع الويب بحظر الروبوتات التي يستخدمونها لاستخلاص البيانات وتدريب النماذج عن طريق تعديل robots.txt، وهو الملف النصي الذي يخبر الروبوتات بالصفحات التي يمكنهم الوصول إليها عبر موقع الويب.
وكما أشارت كلاود فلير في تدوينة تعلن فيها أداة مكافحة الروبوتات، لا تحترم جميع روبوتات استخلاص البيانات هذا الأمر.
وكتبت الشركة في تدوينة: “لا يرغب العملاء في زيارة روبوتات الذكاء الاصطناعي لمواقعهم الإلكترونية، وخاصة تلك التي لا تلتزم بما هو موجود ضمن robots.txt، ونخشى أن تتكيف بعض شركات الذكاء الاصطناعي التي تنوي التحايل على القواعد للوصول إلى المحتوى باستمرار للتهرب من اكتشاف الروبوتات”.
وفي محاولة لمعالجة المشكلة، حللت كلاود فلير حركة مرور روبوتات الذكاء الاصطناعي لضبط نماذج الكشف التلقائي عن الروبوتات.
وتأخذ النماذج في الحسبان إذا كان روبوت الذكاء الاصطناعي يحاول تجنب الكشف عن طريق محاكاة سلوك شخص ما يستخدم متصفح الويب، من بين عوامل أخرى.
وكتب كلاود فلير: “عندما تحاول الجهات الفاعلة الزحف إلى مواقع الويب على نطاق واسع، فإنها تستخدم عمومًا الأدوات والأطر التي يمكننا تحديدها. استنادًا إلى هذه الإشارات، فإن نماذجنا قادرة على تحديد حركة المرور من روبوتات الذكاء الاصطناعي المخادعة بصفتها روبوتات”.
وأعدت كلاود فلير نموذج للمضيفين للإبلاغ عن روبوتات الذكاء الاصطناعي المشتبه بها، وتقول إنها تستمر بإدراج روبوتات الذكاء الاصطناعي في القائمة السوداء يدويًا بمرور الوقت.
وبرزت مشكلة روبوتات الذكاء الاصطناعي بعد أن أدى ازدهار الذكاء الاصطناعي إلى زيادة طلب بيانات تدريب النموذج.
واختارت مواقع عديدة تشعر بالقلق من تدريب نماذج الذكاء الاصطناعي على محتواها دون تنبيه أو تعويض حظر روبوتات الذكاء الاصطناعي.
ويبدو أن بعض موردي الذكاء الاصطناعي يتجاهلون قواعد استبعاد الروبوتات للحصول على ميزة تنافسية في سباق الذكاء الاصطناعي.
واتهم محرك بحث الذكاء الاصطناعي Perplexity سابقًا بانتحال هوية زوار شرعيين لاستخلاص محتوى من مواقع الويب، ويقال إن OpenAI وأنثروبيك تجاهلتا في بعض الأحيان قواعد ملف robots.txt.
وفي رسالة إلى الناشرين في الشهر الماضي، قالت الشركة الناشئة في مجال ترخيص المحتوى TollBit إنها ترى أن عملاء الذكاء الاصطناعي يتجاهلون معيار ملف robots.txt.
وتستطيع أداة كلاود فلير أن تساعد إذا أثبتت دقتها في اكتشاف روبوتات الذكاء الاصطناعي، مع أنها لن تحل المشكلة المعقدة المتمثلة في مخاطرة الناشرين بالتضحية بحركة الإحالة من أدوات الذكاء الاصطناعي، مثل Google AI Overviews، التي تستبعد المواقع من التضمين إذا حظرت روبوتات ذكاء اصطناعي محددة.