تواجه شركات الذكاء الاصطناعي انتقادات بدعوى استيلائها على محتوى مواقع الإنترنت، واستخدامه في تدريب نماذجها المختلفة أو إعادة نشره عبر منصات متعددة.
وأفادت وكالة رويترز بأن شركة Perplexity، صاحبة محرك البحث المدعوم بالذكاء الاصطناعي، بالإضافة إلى شركات أخرى مماثلة تتجاوز ملفات robots.txt، وتجمع محتوى المواقع لتدريب نماذجها.
ويحتوي ملف robots.txt على تعليمات لمحركات البحث وروبوتات جمع البيانات بشأن الصفحات التي يمكن الوصول إليها، ويستخدم مطورو الويب تلك الملفات منذ عام 1994، ولكن الامتثال لها اختياري تمامًا.
وذكرت وكالة رويترز أنها اطلعت على رسالة موجهة إلى الناشرين من شركة TollBit، وهي شركة ناشئة تعمل على توصيل الناشرين بشركات الذكاء الاصطناعي لتوقيع اتفاقيات ترخيص، تحذرهم فيها من أن “وكلاء الذكاء الاصطناعي من مصادر متعددة (وليس شركة واحدة فقط) يختارون تجاوز بروتوكول robots.txt للحصول على محتوى من المواقع” دون الحصول على ترخيص، ولم تشر الرسالة إلى شركات محددة.
وفي سياق متصل، أشار موقع “بيزنس إنسايدر” إلى أن شركتي OpenAI و Anthropic الناشطتين في مجال الذكاء الاصطناعي تتجاوزان أيضًا بروتوكول robots.txt. مع أن الشركتين قد أعلنتا سابقًا احترامهما للتعليمات الموجودة في ملفات robots.txt الخاصة بالمواقع.
واكتشفت مجلة Wired أيضًا أن هناك برنامجًا على خادم تابع لأمازون تشغّله شركة Perplexity يتجاوز تعليمات robots.txt الخاصة بموقعها للوصول إلى محتواها، وزعمت المجلة أنها تحققت من ذلك بعد تحقيق خاص.
وفي مقابلة مع مجلة Fast Company، قال الرئيس التنفيذي لشركة Perplexity، أرافيند سرينيفاس، إن شركته “لا تتجاهل بروتوكول استبعاد الروبوتات”، لكن لا يعني ذلك أنها لا تستفيد من الروبوتات التي تتجاهل البروتوكول.
وأوضح سرينيفاس أن الشركة تستخدم زواحف ويب تابعة لأطراف خارجية، بالإضافة إلى زواحفها الخاصة، وأن الزاحف الذي حددته مجلة Wired كان واحدًا منها.
ورفع بعض الناشرين، ومنهم صحيفة نيويورك تايمز، دعاوى قضائية ضد شركات الذكاء الاصطناعي بسبب انتهاك حقوق الطبع والنشر الخاصة بها، في حين يوقع آخرون اتفاقيات ترخيص مع شركات الذكاء الاصطناعي للدفع مقابل تراخيص استخدام المحتوى.