الرئيسية الذكاء الاصطناعي نموذج OpenAI لنسخ الأصوات يحتاج إلى عينة لمدة 15 ثانية حتى يعمل

نموذج OpenAI لنسخ الأصوات يحتاج إلى عينة لمدة 15 ثانية حتى يعمل

0
open AI

أعلنت OpenAI عن إطلاق نموذج يسمى “Voice Generation”، الذي كان تحت التطوير منذ نهاية عام 2022، والذي يعمل على ميزة “Read Aloud” في ChatGPT.

تقدم OpenAI وصولًا محدودًا إلى منصة إنشاء الصوت من النص التي طورتها وتُدعى “Voice Engine”، والتي يمكنها إنشاء صوت اصطناعي باستناد إلى عينة صوتية لمدة 15 ثانية فقط من صوت شخص ما. يمكن للصوت الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي قراءة النصوص عند الطلب بنفس لغة المتحدث أو بعدد من اللغات الأخرى. وقالت OpenAI في منشورها على المدونة: “تساعد هذه التجارب الصغيرة في تحديد مقاربتنا والتدابير الوقائية والتفكير في كيفية استخدام Voice Engine بشكل إيجابي في مختلف الصناعات.”

تشمل الشركات التي حصلت على الوصول شركة التكنولوجيا التعليمية “Age of Learning”، ومنصة السرد المرئي “HeyGen”، وشركة برمجيات الصحة الأمامية “Dimagi”، ومبتكر تطبيق الاتصال بالذكاء الاصطناعي “Livox”، ونظام الصحة “Lifespan”.

في العينات التي نشرتها OpenAI، يمكنك سماع كيف استخدمت “Age of Learning” التكنولوجيا لإنشاء محتوى صوتي مسبق البرمجة، بالإضافة إلى قراءة “ردود فعل فورية وشخصية” للطلاب من تأليف GPT-4.

وأوضحت OpenAI أنها بدأت في تطوير Voice Engine في نهاية عام 2022 وأن التكنولوجيا قد استخدمت بالفعل لأصوات معينة مسبقة الإعداد لواجهة برمجة التطبيقات لتحويل النص إلى كلام وميزة القراءة بصوت عالٍ في ChatGPT. ووفقاً لموقع TechCrunch، أكد جيف هاريس، عضو فريق منتجات OpenAI لـ Voice Engine، أن النموذج تم تدريبه على “مزيج من البيانات المرخصة والمتاحة للجمهور”. وأبلغت OpenAI النشرة بأن النموذج سيكون متاحًا فقط لحوالي 10 مطورين.

تواجه تقنية تحويل النص إلى صوت باستخدام الذكاء الاصطناعي مجالًا مستمرًا للتطور، ورغم التركيز الكبير على الأصوات الطبيعية أو الآلية، فقد تبين أن هناك اهتمامًا متزايدًا بتطوير تكنولوجيا توليد الأصوات. ومن بين الشركات الرائدة في هذا المجال شركات مثل Podcastle و ElevenLabs، التي تقدم تقنيات لاستنساخ الأصوات بالذكاء الاصطناعي والأدوات التي استكشفتها العديد من المنصات الإعلامية العام الماضي.

وفي نفس الوقت، تسعى الحكومة الأمريكية للحد من استخدامات التقنيات الصوتية الاصطناعية غير الأخلاقية. وفي الشهر الماضي، قررت اللجنة الاتصالات الفدرالية حظر المكالمات الآلية التي تستخدم أصوات الذكاء الاصطناعي بعد تلقي الناس مكالمات غير مرغوب فيها من صوت مقلد للرئيس جو بايدن.

وفقًا لـ OpenAI، فإن الشركاء المتعاونين معها يتعهدون بالامتثال لسياسات الاستخدام التي تحدد أنهم لن يستخدموا توليد الصوت لتقليد الأشخاص أو المنظمات دون موافقتهم. كما تتطلب الشركاء الحصول على موافقة صريحة ومستنيرة من المتحدث الأصلي، وعدم بناء طرق للمستخدمين الفرديين لإنشاء أصواتهم الخاصة، والكشف عن أن الأصوات هي منشأة بالذكاء الاصطناعي للمستمعين. وأضافت OpenAI علامة مائية إلى مقاطع الصوت لتتبع منشأها ومراقبة كيفية استخدام الصوت بنشاط.

وأوصت OpenAI بعدة خطوات يعتقد أنها يمكن أن تحد من المخاطر المحيطة بأدوات مثل هذه، بما في ذلك التخلي تدريجيًا عن المصادقة الصوتية للوصول إلى حسابات البنوك، وسياسات لحماية استخدام أصوات الأشخاص في التقنيات الذكاء الاصطناعي، وزيادة التوعية حول الفيديوهات المزورة باستخدام التكنولوجيا العميقة، وتطوير أنظمة تتبع للمحتوى الذكاء الاصطناعي.

لا يوجد تعليقات

Exit mobile version