لا يقتصر الأمر عليك وحدك – فنتائج البحث أصبحت أسوأ بالفعل. فقد أجرى باحثو Amazon Web Services (AWS) دراسة تشير إلى أن 57% من المحتوى على الإنترنت اليوم إما تم إنشاؤه بواسطة الذكاء الاصطناعي أو ترجمته باستخدام خوارزمية الذكاء الاصطناعي.
وتزعم الدراسة، التي حملت عنوان “كمية صادمة من محتوى الويب مترجمة آليًا: رؤى من التوازي متعدد الاتجاهات”، أن الترجمة الآلية منخفضة التكلفة، والتي تأخذ جزءًا معينًا من المحتوى وتعيد إنتاجه بلغات متعددة، هي السبب الرئيسي. وكتب الباحثون في الدراسة: “لا تهيمن الترجمات المتوازية متعددة الاتجاهات التي يتم إنشاؤها آليًا على إجمالي كمية المحتوى المترجم على الويب باللغات ذات الموارد الأقل حيث تتوفر الترجمة الآلية فحسب؛ بل إنها تشكل أيضًا جزءًا كبيرًا من إجمالي محتوى الويب بهذه اللغات”.
كما وجد الباحثون أدلة على وجود تحيز في الاختيار فيما يتعلق بالمحتوى المترجم آليًا إلى لغات متعددة مقارنة بالمحتوى المنشور بلغة واحدة. وكتب الباحثون: “هذا المحتوى أقصر، وأكثر قابلية للتنبؤ، وله توزيع موضوعي مختلف مقارنة بالمحتوى المترجم إلى لغة واحدة”.
وعلاوة على ذلك، فإن الكم المتزايد من المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي على الإنترنت، إلى جانب الاعتماد المتزايد على أدوات الذكاء الاصطناعي لتحرير هذا المحتوى والتلاعب به، قد يؤدي إلى ظاهرة تُعرف باسم انهيار النموذج، وهي تعمل بالفعل على تقليل جودة نتائج البحث عبر الويب. ونظرًا لأن نماذج الذكاء الاصطناعي الرائدة مثل ChatGPT وGemini وClaude تعتمد على كميات هائلة من بيانات التدريب التي لا يمكن الحصول عليها إلا من خلال كشط الويب العام (سواء كان ذلك ينتهك حقوق الطبع والنشر أم لا)، فإن امتلاء الويب العام بالمحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي، والذي غالبًا ما يكون غير دقيق، قد يؤدي إلى تدهور أدائها بشدة.
“من المدهش مدى سرعة انهيار النموذج ومدى صعوبة اكتشافه”، هذا ما قاله الدكتور إيليا شوميلوف من جامعة أكسفورد لموقع Windows Central. “في البداية، يؤثر ذلك على البيانات الأقلية – البيانات التي يتم تمثيلها بشكل سيئ. ثم يؤثر ذلك على تنوع المخرجات ويقلل التباين. في بعض الأحيان، تلاحظ تحسنًا طفيفًا في بيانات الأغلبية، مما يخفي التدهور في الأداء على البيانات الأقلية. يمكن أن يكون لانهيار النموذج عواقب وخيمة”.
وقد أثبت الباحثون هذه النتائج من خلال قيام خبراء لغويين محترفين بتصنيف 10 آلاف جملة إنجليزية مختارة عشوائيًا من إحدى الفئات العشرين. ولاحظ الباحثون “تحولًا كبيرًا في توزيع الموضوعات عند مقارنة البيانات المتوازية ثنائية الاتجاه مع البيانات المتوازية ذات الثمانية اتجاهات (أي عدد الترجمات اللغوية)، مع زيادة موضوعات “المحادثة والرأي” من 22.5% إلى 40.1%” من تلك المنشورة.
ويشير هذا إلى تحيز في الاختيار في نوع البيانات المترجمة إلى لغات متعددة، والتي “من المرجح إلى حد كبير” أن تكون من موضوع “المحادثة والرأي”.
بالإضافة إلى ذلك، وجد الباحثون أن “الترجمات المتوازية متعددة الاتجاهات بدرجة عالية أقل جودة بشكل ملحوظ (6.2 نقطة تقدير جودة المذنب أسوأ) من الترجمات المتوازية في الاتجاهين”. عندما قام الباحثون بمراجعة 100 من الجمل المتوازية متعددة الاتجاهات بدرجة عالية (تلك المترجمة إلى أكثر من ثماني لغات)، وجدوا أن “الغالبية العظمى” جاءت من مزارع محتوى تحتوي على مقالات “وصفناها بأنها منخفضة الجودة، ولا تتطلب خبرة قليلة أو معدومة، أو تتطلب جهدًا مسبقًا لإنشائها”.
من المؤكد أن هذا يساعد في تفسير سبب إصرار الرئيس التنفيذي لشركة OpenAI سام ألتمان على التأكيد على أنه “من المستحيل” إنشاء أدوات مثل ChatGPT دون الوصول المجاني إلى الأعمال المحمية بحقوق الطبع والنشر.