أدوات نسخ الكلام منظمة العفو الدولية على وشك الحصول على قدر أكبر من المنافسة مع فريق Qwen في Alibaba الذي يسحب الكشف عن نموذج QWEN3-ASR-FLASH.
بناء على ذكاء QWEN3-OMNI القوي والتدريب على استخدام مجموعة بيانات ضخمة مع عشرات ملايين ساعات بيانات الكلام ، هذا ليس مجرد نموذج آخر التعرف على خطاب AI. يقول الفريق إنه مصمم لتقديم أداء دقيق للغاية ، حتى عندما يواجه بيئات صوتية صعبة أو أنماط لغة معقدة.
لذا ، كيف تتراكم ضد المنافسة؟ تشير بيانات الأداء ، من الاختبارات التي أجريت في أغسطس 2025 ، إلى أنها رائعة إلى حد ما.
في اختبار عام للصينيين القياسيين ، حقق QWEN3-ASR-FLASH معدل خطأ قدره 3.97 في المائة فقط ، تاركًا منافسين مثل Gemini-2.5-PRO (8.98 ٪) و GPT4O TRANSCRINCE (15.72 ٪) متخلفون في أعقابها وأظهروا المزيد من أدوات النسخ التنافسية لخطاب AI.
أثبت QWEN3-ASR-FLASH أيضًا ماهرًا في التعامل مع اللهجات الصينية ، بمعدل خطأ قدره 3.48 في المائة. في اللغة الإنجليزية ، سجلت بنسبة 3.81 في المائة منافسة ، مرة أخرى بشكل مريح تغلب على Gemini بنسبة 7.63 في المائة و 8.45 في المائة من GPT4O.
ولكن حيث تتحول حقًا إلى الرؤوس في منطقة صعبة سيئة السمعة: نسخ الموسيقى.
عند تكليفه بالتعرف على كلمات الأغاني من الأغاني ، نشر Qwen3-ASR-Flash معدل خطأ قدره 4.51 في المائة فقط ، وهو أفضل بكثير من منافسيه. تم تأكيد هذه القدرة على فهم الموسيقى في الاختبارات الداخلية على الأغاني الكاملة ، حيث سجل معدل خطأ 9.96 في المئة ؛ تحسن كبير على 32.79 في المئة من Gemini-2.5-Pro و 58.59 في المئة من GPT4O Transcribe.
إلى جانب دقتها المثيرة للإعجاب ، يجلب النموذج بعض الميزات المبتكرة إلى الطاولة لأدوات النسخ من الجيل التالي من الذكاء الاصطناعي. واحدة من أكبر المتجولين في اللعبة هي التحيز السياقي المرن.
ننسى أيام قوائم الكلمات الرئيسية تنسيقًا بشق الأنفس ، يتيح هذا النظام للمستخدمين تغذية نص خلفية النموذج في أي تنسيق تقريبًا للحصول على نتائج مخصصة. يمكنك توفير قائمة بسيطة من الكلمات الرئيسية أو المستندات بأكملها أو حتى مزيج فوضوي من الاثنين.
هذه العملية تلغي أي حاجة إلى المعالجة المسبقة المعقدة للمعلومات السياقية. النموذج ذكي بما يكفي لاستخدام السياق لزيادة دقته ؛ ومع ذلك ، لا يتأثر أدائها العام حتى لو كان النص الذي تقدمه غير ذي صلة تمامًا.
من الواضح أن طموح Alibaba لنموذج الذكاء الاصطناعي هذا هو أن تصبح أداة نسخ عالمية للكلام. توفر الخدمة نسخًا دقيقًا من نموذج واحد يغطي 11 لغة ، مع استكمال العديد من اللهجات واللهجات.
إن دعم الصينية عميق بشكل خاص ، حيث يغطي الماندرين بالإضافة إلى لهجات رئيسية مثل الكانتونية والسيتشوا ومينيان (هوكين) و وو.
بالنسبة للمتحدثين باللغة الإنجليزية ، فإنه يتعامل مع اللهجات البريطانية والأمريكية وغيرها من اللهجات الإقليمية. تشمل قائمة اللغات المثيرة للإعجاب من اللغات المدعومة الأخرى الفرنسية والألمانية والإسبانية والإيطالية والبرتغالية والروسية واليابانية والكورية والعربية.
من أجل تقريب كل شيء ، يمكن للنموذج تحديد أي من اللغات الـ 11 التي يتم التحدث بها وهي بارعة في رفض شرائح غير يتحدث مثل الصمت أو ضوضاء الخلفية ، مما يضمن الإخراج الأنظف من أدوات النسخ الكلامية الماضية.
انظر أيضا: Siddhartha Choudhury ، Booking.com: قتال الاحتيال عبر الإنترنت مع الذكاء الاصطناعي

هل تريد معرفة المزيد عن الذكاء الاصطناعي والبيانات الكبيرة من قادة الصناعة؟ تحقق من AI و Big Data Expo الذي يقام في أمستردام ، كاليفورنيا ، ولندن. يعد الحدث الشامل جزءًا من TechEx ويتم تحديده مع الأحداث التكنولوجية الرائدة الأخرى ، انقر هنا لمزيد من المعلومات.
AI News مدعومة من قبل Techforge Media. استكشاف أحداث وندوات الويب الأخرى القادمة هنا.