عرضت سماعات الأذن اللاسلكية من Google Pixel مرفق ترجمة رائع في الوقت الفعلي لفترة من الوقت الآن. خلال السنوات القليلة الماضية ، قدمت العلامات التجارية مثل Timkettle سماعات أذن مماثلة لعملاء الأعمال. ومع ذلك ، يمكن لجميع هذه الحلول التعامل مع دفق صوت واحد فقط مرة واحدة للترجمة.
طور الأشخاص في جامعة واشنطن (UW) شيئًا رائعًا حقًا في شكل سماعات رأس AI التي يمكن أن تترجم صوت العديد من مكبرات الصوت في وقت واحد. فكر في الأمر على أنه تعدد اللغات في حانة مزدحمة ، قادرًا على فهم خطاب الأشخاص من حوله ، ويتحدثون بلغات مختلفة ، في وقت واحد.
يشير الفريق إلى ابتكارهم كترجمة خطاب مكاني ، ويأتي ذلك للحياة بإذن من سماعات الرأس الأذني. بالنسبة إلى غير مدرك ، يحاول الصوت الأذني محاكاة المؤثرات الصوتية بالطريقة التي تتصور بها الأذنين البشرية بشكل طبيعي. لتسجيلها ، يتم وضع ميكروفونات على رأس وهمية ، على نفس المسافة مثل الأذنين البشرية على كل جانب.
هذا النهج أمر بالغ الأهمية لأن أذنينا لا تسمع الصوت فقط ، ولكنها تساعدنا أيضًا في قياس اتجاه أصلها. الهدف الشامل هو إنتاج صوتي طبيعي مع تأثير ستيريو يمكن أن يوفر شعورًا مباشرًا يشبه الحفل الموسيقي. أو ، في السياق الحديث ، الاستماع المكاني.
ويأتي هذا العمل من باب المجاملة لفريق بقيادة البروفيسور شيام جولاكوتا ، الذي تشمل ذخيرته الغزيرة تطبيقات يمكن أن تضع GPS تحت الماء على الساعات الذكية ، وتحويل الخنافس إلى مصورين ، وزراعة الدماغ التي يمكن أن تتفاعل مع الإلكترونيات ، وتطبيق الهاتف المحمول الذي يمكن أن يسمع العدوى ، والمزيد.
كيف تعمل الترجمة متعددة المتحدثين؟
“لأول مرة ، لقد حافظنا على صوت صوت كل شخص والاتجاه الذي يأتي منه” ، يوضح جولاكوتا ، أستاذًا حاليًا في كلية بول ج. ألين للمعهد.
يشبه الفريق مجموعته بالرادار ، حيث إنه يبدأ في العمل من خلال تحديد عدد المتحدثين في المناطق المحيطة ، وتحديث هذا الرقم في الوقت الفعلي مع انتقال الناس إلى نطاق الاستماع وخارجه. يعمل النهج بأكمله على الجهاز ولا يتضمن إرسال تدفقات صوت المستخدم إلى خادم سحابة للترجمة. ياي ، الخصوصية!
بالإضافة إلى ترجمة الكلام ، فإن المجموعة “تحافظ على الصفات التعبيرية وحجم صوت كل متحدث”. يتم إجراء تعديلات شدة الاتجاه والاتجاهية والصوتية مع تحرك المتحدث عبر الغرفة. ومن المثير للاهتمام ، يقال إن Apple تقوم أيضًا بتطوير نظام يسمح لـ AirPods بترجمة الصوت في الوقت الفعلي.
كيف يأتي كل شيء إلى الحياة؟
اختبر فريق UW إمكانات ترجمة سماعات AI في ما يقرب من عشرة إعدادات في الهواء الطلق والداخلية. بقدر ما يذهب الأداء ، يمكن للنظام أن يأخذ ومعالجة وإنتاج الصوت المترجم في غضون 2-4 ثوان. يبدو أن المشاركين في الاختبار يفضلون تأخير بقيمة 3-4 ثوانٍ ، لكن الفريق يعمل على تسريع خط أنابيب الترجمة.

حتى الآن ، اختبر الفريق فقط ترجمات اللغة الإسبانية والألمانية والفرنسية ، لكنهم يأملون في إضافة المزيد إلى حمام السباحة. من الناحية الفنية ، قاموا بتكثيف فصل المصدر الأعمى ، والتوطين ، والترجمة التعبيرية في الوقت الفعلي ، وتقديم بكلتا الأذنين إلى تدفق واحد ، وهو إنجاز مثير للإعجاب.
بقدر ما يذهب النظام ، طور الفريق نموذج ترجمة الكلام قادر على التشغيل في الوقت الفعلي على سيليكون Apple M2 ، لتحقيق الاستدلال في الوقت الفعلي. تم التعامل مع واجبات صوتية من قبل زوج من سماعات سوني إلغاء الضوضاء WH-1000XM4 وتواجد SONC SP15C MIC USB.
وهنا أفضل جزء. يقول البيان الصحفي للمؤسسة: “يتوفر رمز جهاز إثبات المفهوم للآخرين للبناء عليه”. وهذا يعني أن مجتمع العبث العلمي والمفتوح بالمصادر يمكنه التعلم ووضع مشاريع أكثر تقدماً على الأسس التي وضعها فريق UW.