تدفع ميتا حدود تكنولوجيا ترجمة اللغات إلى آفاق جديدة من خلال حلاً مبتكرًا يقربنا من عالم غير متوقع في الخيال العلمي. وبالرغم من عدم التوصل بالضبط إلى مستوى الاتصال المستقبلي الذي يتم تصويره، فإن تقنيات الترجمة القائمة على الذكاء الاصطناعي تثبت جدارتها في تحويل تلك الأنظمة اللغوية المتعددة – التي تضم حوالي 6500 لغة – والتي يتواصل بها البشر حول العالم. ومع ذلك، ينشأ تحدي عند محاولة دمج نماذج متخصصة متعددة تبرز في مهام فردية مثل تحويل النص إلى كلام، أو الكلام إلى نص ، أو التحويلات المتبادلة بينهما. ويؤدي تعقيد هذه العملية إلى تجميع مجموعة من النماذج لتحقيق القدرات الشاملة المعروضة في منصات مثل ترجمة جوجل وخدمات اللغة المتعددة لفيسبوك.
وعلى خلفية تعقيدات الحساب الحاسوبي، قامت ميتا بتطوير نموذج واحد بمرونة فائقة. تقدم SeamlessM4T، وهو “نموذج متعدد اللغات والمهام الأساسي”، والذي تم تصميمه بدقة لترجمة ونسخ وتحويلات سلسة بين الكلام والنص، كما وضحت ميتا مدونتها اليوم. تمكن هذا الابتكار SeamlessM4T من التنقل بسلاسة بين ما يقرب من 100 لغة عبر مجموعة من الوظائف: من الكلام إلى النص، ومن النص إلى النص، ومن الكلام إلى الكلام، ومن النص إلى الكلام. وبصورة مثيرة للإعجاب، لا يدعم النموذج فقط هذه اللغات كإدخال وإخراج، بل يسهل أيضًا الانتقال بين اللغات بحيث يدعم 36 لغة إضافية، بما في ذلك الإنجليزية.
يسلط فريق أبحاث ميتا الضوء على قدرة SeamlessM4T على “تحسين الأداء بشكل كبير للغات ذات الموارد المنخفضة والمتوسطة التي يدعمها”، مع الحفاظ في الوقت نفسه على “أداء قوي في اللغات ذات الموارد العالية، مثل الإنجليزية والإسبانية والألمانية”. يتم بناء SeamlessM4T على الهيكلية الحالية لنموذج UnitY متعدد المهام، والذي يعتمد على PyTorch، والذي يبرع بالترجمات النمطية المتنوعة والاعتراف التلقائي بالكلام. يتضمن النموذج نظام BERT 2.0 لترميز الصوت، والذي يقسم المدخلات إلى مكونات رموز للتحليل الدقيق. بالإضافة إلى ذلك، يتم استخدام جهاز تكنولوجي HiFi-GAN لتوليد ردود الكلام بأداء رائع.
تكمل ميتا هذا النموذج الرائد بمستودع مفتوح الشفافية بعنوان “SeamlessAlign”، والذي يحوي مجموعة كبيرة من نصوص الترجمة من النص إلى الكلام ومن الكلام إلى النص. تم تجميع هذه الموارد المذهلة من “عشرات المليارات من الجمل” و”أربعة ملايين ساعة” من البيانات الصوتية المتاحة للجمهور. باستخدام هذه الكنوز، تمكنت الشركة من “محاذاة تلقائية لأكثر من 443,000 ساعة من الكلام مع النصوص” لتوليد حوالي 29,000 ساعة من محاذاة الكلام مع الكلام. أظهرت اختبارات القوة الجوانب البارزة لـ SeamlessM4T مقارنةً بالإصدار السابق، حيث حقق نسبة تحسن بنسبة 37 في المئة في مقاومة ضوضاء الخلفية، وزيادة بنسبة 48 في المئة في التعامل مع تباينات أسلوب القائم بالكلام.
ومواكبةً لتقديم مساهماتها المفتوحة المصدر، قامت ميتا بتوفير SeamlessM4T للاستخدام العام. يعتبر الفريق SeamlessM4T تقدمًا مهمًا في خلق أنظمة متعددة المهام واستدعاء الباحثين والمطورين لبناء على هذه التقنية. مع الالتزام المستمر لميتا بالعلم المفتوح، يمكن الوصول إلى النموذج وبيانات التدريب والوثائق الشاملة على GitHub.