ذات صلة

اخر الاخبار

يوتيوب يختبر طريقة جديدة لمكافحة حجب الإعلانات

يستمر يوتيوب في محاولاته للتغلب على حجب الإعلانات، حيث قام مؤخراً باختبار حقن الإعلانات من جانب الخادم مع عدد محدود من المستخدمين، وفقًا لتطبيق SponsorBlock المختص بحجب الإعلانات.

آبل تنضم إلى سباق أيقونات الذكاء الاصطناعي

شهد مجتمع الذكاء الاصطناعي هذا الأسبوع حماسة كبيرة مع انضمام آبل إلى جوجل وOpenAI وAnthropic وميتا في السباق لتطوير أيقونة تعبر عن الذكاء الاصطناعي للمستخدمين.

يوتيوب يختبر ملخصات الدردشة المباشرة ورموز QR للقنوات وتأثيرات الشورت

كشف يوتيوب عن أحدث ميزات الاختبار التي ستتاح قريبًا لبعض القنوات. تشمل هذه الميزات ملخصات الدردشة المباشرة بواسطة الذكاء الاصطناعي، والبحث بواسطة عدسة جوجل "Google Lens"

سيارة شاومي SU7 تصل الى إنجاز جديد

أطلقت شاومي سيارتها الكهربائية بالكامل Xiaomi SU7 في مارس الماضي، ومنذ ذلك الحين تواجه الشركة تحديات في تلبية الطلب الكبير.

إنفينكس زيرو فليب يحصل على شهادة FCC ويدعم الشاحن بقوة 70 واط

أطلقت تكنو العلامة التجارية الشقيقة لشركة إنفينكس، أول هاتف ذكي قابل للطي باسم Phantom V Flip في سبتمبر الماضي. والآن، يبدو أن الدور قد حان لـ إنفينكس لإطلاق هاتفها القابل للطي الخاص بها. سيحمل الهاتف الجديد اسم زيرو فليب "Zero Flip"، وقد حصل مؤخرًا على شهادة من لجنة الاتصالات الفيدرالية (FCC)، مما يشير إلى أنه سيتم إطلاقه في جميع الأسواق التي تتوفر فيها أجهزة إنفينكس.

ميتا تكشف عن مترجم متعدد الوسائط يتقن 100 لغة بنموذج واحد

تدفع ميتا حدود تكنولوجيا ترجمة اللغات إلى آفاق جديدة من خلال حلاً مبتكرًا يقربنا من عالم غير متوقع في الخيال العلمي. وبالرغم من عدم التوصل بالضبط إلى مستوى الاتصال المستقبلي الذي يتم تصويره، فإن تقنيات الترجمة القائمة على الذكاء الاصطناعي تثبت جدارتها في تحويل تلك الأنظمة اللغوية المتعددة – التي تضم حوالي 6500 لغة – والتي يتواصل بها البشر حول العالم. ومع ذلك، ينشأ تحدي عند محاولة دمج نماذج متخصصة متعددة تبرز في مهام فردية مثل تحويل النص إلى كلام، أو الكلام إلى نص ، أو التحويلات المتبادلة بينهما. ويؤدي تعقيد هذه العملية إلى تجميع مجموعة من النماذج لتحقيق القدرات الشاملة المعروضة في منصات مثل ترجمة جوجل وخدمات اللغة المتعددة لفيسبوك.

وعلى خلفية تعقيدات الحساب الحاسوبي، قامت ميتا بتطوير نموذج واحد بمرونة فائقة. تقدم SeamlessM4T، وهو “نموذج متعدد اللغات والمهام الأساسي”، والذي تم تصميمه بدقة لترجمة ونسخ وتحويلات سلسة بين الكلام والنص، كما وضحت ميتا مدونتها اليوم. تمكن هذا الابتكار SeamlessM4T من التنقل بسلاسة بين ما يقرب من 100 لغة عبر مجموعة من الوظائف: من الكلام إلى النص، ومن النص إلى النص، ومن الكلام إلى الكلام، ومن النص إلى الكلام. وبصورة مثيرة للإعجاب، لا يدعم النموذج فقط هذه اللغات كإدخال وإخراج، بل يسهل أيضًا الانتقال بين اللغات بحيث يدعم 36 لغة إضافية، بما في ذلك الإنجليزية.

يسلط فريق أبحاث ميتا الضوء على قدرة SeamlessM4T على “تحسين الأداء بشكل كبير للغات ذات الموارد المنخفضة والمتوسطة التي يدعمها”، مع الحفاظ في الوقت نفسه على “أداء قوي في اللغات ذات الموارد العالية، مثل الإنجليزية والإسبانية والألمانية”. يتم بناء SeamlessM4T على الهيكلية الحالية لنموذج UnitY متعدد المهام، والذي يعتمد على PyTorch، والذي يبرع بالترجمات النمطية المتنوعة والاعتراف التلقائي بالكلام. يتضمن النموذج نظام BERT 2.0 لترميز الصوت، والذي يقسم المدخلات إلى مكونات رموز للتحليل الدقيق. بالإضافة إلى ذلك، يتم استخدام جهاز تكنولوجي HiFi-GAN لتوليد ردود الكلام بأداء رائع.

تكمل ميتا هذا النموذج الرائد بمستودع مفتوح الشفافية بعنوان “SeamlessAlign”، والذي يحوي مجموعة كبيرة من نصوص الترجمة من النص إلى الكلام ومن الكلام إلى النص. تم تجميع هذه الموارد المذهلة من “عشرات المليارات من الجمل” و”أربعة ملايين ساعة” من البيانات الصوتية المتاحة للجمهور. باستخدام هذه الكنوز، تمكنت الشركة من “محاذاة تلقائية لأكثر من 443,000 ساعة من الكلام مع النصوص” لتوليد حوالي 29,000 ساعة من محاذاة الكلام مع الكلام. أظهرت اختبارات القوة الجوانب البارزة لـ SeamlessM4T مقارنةً بالإصدار السابق، حيث حقق نسبة تحسن بنسبة 37 في المئة في مقاومة ضوضاء الخلفية، وزيادة بنسبة 48 في المئة في التعامل مع تباينات أسلوب القائم بالكلام.

ومواكبةً لتقديم مساهماتها المفتوحة المصدر، قامت ميتا بتوفير SeamlessM4T للاستخدام العام. يعتبر الفريق SeamlessM4T تقدمًا مهمًا في خلق أنظمة متعددة المهام واستدعاء الباحثين والمطورين لبناء على هذه التقنية. مع الالتزام المستمر لميتا بالعلم المفتوح، يمكن الوصول إلى النموذج وبيانات التدريب والوثائق الشاملة على GitHub.