يستخدم مترجم Meta الجديد نموذجًا واحدًا للتحدث بـ 100 لغة. ابتكار مهم واعد جدًا ومفتوح المصدر.
أصبحت أساليب الترجمة الحديثة المعتمدة على الذكاء الاصطناعي متقدمة بما يكفي للتحدث والتبديل بين ما يقرب من 6500 نظام اتصال شفهي ومكتوب. تكمن المشكلة في أن كل نموذج من هذه النماذج غالبًا ما يؤدي مهمة واحدة أو مهمتين بشكل جيد للغاية - ترجمة وتحويل النص إلى صوت، أو الصوت إلى نص، أو النص إلى نص، أو الصوت إلى صوت. في الواقع، نحن في نهاية المطاف مع عدد من النماذج واحدا فوق الآخرإنشاء أداة معممةمثلجوجلخدمات الترجمة أو اللغةفيسبوك.
وهذا يتطلب موارد حاسوبية هائلة. هذا هو السببميتاطورت نموذجًا واحدًا يمكنه فعل كل شيء. SeamlessM4T هو "نموذج أساسي متعدد اللغات ومتعدد المهام يقوم بترجمة ونسخ الصوت والنص"، كما قرأنا في منشور مدونة Meta. يمكنه الترجمة إلى ما يقرب من 100 لغة لوظائف تحويل الصوت إلى نص وتحويل النص إلى نص. يدعم الصوت إلى الصوت والنص إلى الصوت نفس لغات الإدخال ويمكن إخراجها بـ 36 لغة، بما في ذلك اللغة الإنجليزية.
في منشور المدونة، ذكر فريق بحث Meta أن SeamlessM4T "يعمل على تحسين الأداء بشكل كبير في اللغات المنخفضة ومنخفضة الموارد التي ندعمها"، مع الحفاظ على "الأداء العالي في اللغات عالية الموارد، مثل الإنجليزية والإسبانية والألمانية". »قامت Meta ببناء SeamlessM4T من بنية نموذج UnitY متعدد المهام استنادًا إلى PyTorch، والذي يسمح بالفعل بترجمات مشروطة متنوعة محليًا بالإضافة إلى التعرف التلقائي على الكلام. ويستخدم نظام BERT 2.0 لتشفير الصوت، وفصل المدخلات إلى رموز للتحليل ومشفر صوتي HiFi-GAN لإنشاء استجابات منطوقة.
ابتكار مهم وواعد للغاية مفتوح المصدر
قامت Meta أيضًا بتجميع مجموعة ضخمة من البيانات المتوازية للصوت والصوت والنص، تسمى SeamlessAlign. استخرجت الشركة "عشرات المليارات من الجمل" و"أربعة ملايين ساعة" من التسجيلات الصوتية من المصادر المتاحة للجمهور من أجل "مواءمة أكثر من 443000 ساعة من الصوت تلقائيًا مع النص المقابل وإنشاء ما يقرب من 29000 ساعة من محاذاة الصوت إلى الصوت"، وفقًا لـ المدونة. عندما تم تقييم قوة النظام، تفوق أداء SeamlessM4T على سابقه مقابل ضوضاء الخلفية وتغيرات أسلوب الراوي بنسبة 37 و48% على التوالي.
كما هو الحال مع كل جهوده السابقة فيما يتعلق بالترجمة سواءاللاما 2، الكلام متعدد اللغات على نطاق واسع (MMS)، أو مترجم الكلام العالمي (UST) أو مشروع عدم ترك أي لغة (NLLB) الطموح، أصبح SeamlessM4T الآن مفتوح المصدر. يكتب الفريق: "نعتقد أن SeamlessM4T يعد ابتكارًا مهمًا في سعي مجتمع الذكاء الاصطناعي نحو إنشاء أنظمة عالمية متعددة المهام". "مع الحفاظ على نهجنا في العلوم المفتوحة، نتطلع إلى مشاركة نموذجنا علنًا لتمكين الباحثين والمطورين من البناء على هذه التكنولوجيا." » إذا كنت مهتمًا بالعمل مع SeamlessM4T بنفسك، فتوجه إلىجيثب لتحميل النموذجوبيانات وتوثيق التدريب.
هل يعجبك المحتوى الخاص بنا؟
احصل على أحدث منشوراتنا كل يوم مجانًا ومباشرة في صندوق الوارد الخاص بك