ذات صلة

اخر الاخبار

يوتيوب يختبر طريقة جديدة لمكافحة حجب الإعلانات

يستمر يوتيوب في محاولاته للتغلب على حجب الإعلانات، حيث قام مؤخراً باختبار حقن الإعلانات من جانب الخادم مع عدد محدود من المستخدمين، وفقًا لتطبيق SponsorBlock المختص بحجب الإعلانات.

آبل تنضم إلى سباق أيقونات الذكاء الاصطناعي

شهد مجتمع الذكاء الاصطناعي هذا الأسبوع حماسة كبيرة مع انضمام آبل إلى جوجل وOpenAI وAnthropic وميتا في السباق لتطوير أيقونة تعبر عن الذكاء الاصطناعي للمستخدمين.

يوتيوب يختبر ملخصات الدردشة المباشرة ورموز QR للقنوات وتأثيرات الشورت

كشف يوتيوب عن أحدث ميزات الاختبار التي ستتاح قريبًا لبعض القنوات. تشمل هذه الميزات ملخصات الدردشة المباشرة بواسطة الذكاء الاصطناعي، والبحث بواسطة عدسة جوجل "Google Lens"

سيارة شاومي SU7 تصل الى إنجاز جديد

أطلقت شاومي سيارتها الكهربائية بالكامل Xiaomi SU7 في مارس الماضي، ومنذ ذلك الحين تواجه الشركة تحديات في تلبية الطلب الكبير.

إنفينكس زيرو فليب يحصل على شهادة FCC ويدعم الشاحن بقوة 70 واط

أطلقت تكنو العلامة التجارية الشقيقة لشركة إنفينكس، أول هاتف ذكي قابل للطي باسم Phantom V Flip في سبتمبر الماضي. والآن، يبدو أن الدور قد حان لـ إنفينكس لإطلاق هاتفها القابل للطي الخاص بها. سيحمل الهاتف الجديد اسم زيرو فليب "Zero Flip"، وقد حصل مؤخرًا على شهادة من لجنة الاتصالات الفيدرالية (FCC)، مما يشير إلى أنه سيتم إطلاقه في جميع الأسواق التي تتوفر فيها أجهزة إنفينكس.

شركة OpenAI تنسخ أكثر من مليون ساعة من YouTube لتدريب GPT-4

كشف تقرير نُشر في صحيفة نيويورك تايمز عن الجهود التي بذلتها الشركات الرائدة في مجال الذكاء الاصطناعي لتوسيع نطاق وصولها إلى بيانات التدريب.

في بداية هذا الأسبوع، أفادت صحيفة وول ستريت جورنال بأن شركات الذكاء الاصطناعي تواجه تحديًا في جمع بيانات التدريب عالية الجودة. وفي هذا السياق، ذكرت نيويورك تايمز بعض الإجراءات التي اتخذتها هذه الشركات لمواجهة هذه المشكلة. وكما هو متوقع، تتضمن هذه الإجراءات أفعالًا تتحرك في منطقة غير محددة بوضوح في قوانين حقوق النشر في مجال الذكاء الاصطناعي.

تبدأ القصة بشركة OpenAI التي، بحاجة ماسة للبيانات التدريبية، قامت بتطوير نموذجها Whisper لتحويل الصوت إلى نص لتجاوز هذه العقبة، وذلك عبر نسخ أكثر من مليون ساعة من مقاطع فيديو YouTube لتدريب GPT-4، أحدث نموذج لغوي كبير وأكثر تطورًا لديها. ووفقًا لتقرير نيويورك تايمز، كانت الشركة على علم بأن هذا الإجراء قد يتعارض مع القوانين، لكنها اعتبرت أنه استخدام مقبول قانونيًا. وكان الرئيس التنفيذي لـ OpenAI جريج بروكمان شخصيًا مشاركًا في جمع الفيديوهات المستخدمة في التدريب، حسبما ذكرت نيويورك تايمز.

صرح متحدث باسم OpenAI لموقع The Verge عبر البريد الإلكتروني بأن الشركة تجمع بيانات “فريدة” لكل نموذج لها بهدف “تعزيز فهمها للعالم” والحفاظ على تنافسيتها العالمية في مجال البحث. وأضاف أن الشركة تعتمد على “مصادر متنوعة تشمل البيانات المتاحة علنًا والشراكات للبيانات غير العلنية”، وأنها تدرس إنشاء بيانات تركيبية خاصة بها.

وأفادت نيويورك تايمز بأن OpenAI استنفدت مصادر البيانات المفيدة في عام 2021، وبدأت بالنقاش حول نقل مقاطع فيديو YouTube والبودكاست والكتب الصوتية بعد استنفاد الموارد الأخرى. وكانت الشركة قد قامت بتدريب نماذجها باستخدام بيانات تتضمن الكود الحاسوبي من موقع Github، وقواعد الشطرنج، ومحتوى الدروس من Quizlet.

وفي سياق متصل، صرح متحدث باسم جوجل، مات برايانت، لموقع The Verge ايضاً عبر البريد الإلكتروني بأن الشركة “لاحظت تقارير غير مؤكدة” عن نشاط OpenAI، مشيرًا إلى أن “كل من ملفات robots.txt الخاصة بنا وشروط الخدمة تمنعان الاسترداد أو التنزيل غير المصرح به لمحتوى YouTube”، مؤكدًا موقف الشركة. وأشار إلى أن جوجل جمع أيضًا نصوصًا من YouTube وقام بتدريب نماذجه “على بعض محتوى YouTube، وفقًا لاتفاقياتنا مع مبدعي YouTube”.

كما أشارت نيويورك تايمز إلى أن قسم القانون في جوجل طلب من فريق الخصوصية للشركة تعديل لغة سياستها لتوسيع مجال استخدام بيانات المستخدمين، مثل أدوات المكتب مثل Google Docs، حيث تم إطلاق السياسة الجديدة بشكل متعمد في الأول من يوليو للاستفادة من التشتت الناجم عن عطلة عيد الاستقلال.

وبشكل مشابه، واجهت ميتا تحديات في توفر بيانات التدريب عالية الجودة، وفي تسجيلات استمعت إليها نيويورك تايمز، ناقش فريق الذكاء الاصطناعي لديها استخدام الأعمال المحمية بحقوق النشر دون إذن أثناء العمل على اللحاق بـ OpenAI. وبعد استكمال “تقريبًا كل كتاب ومقال وقصيدة وخبر باللغة الإنجليزية المتاحة على الإنترنت”، نظرت الشركة في اتخاذ خطوات مثل دفع تكاليف تراخيص الكتب أو حتى شراء ناشر كبير. وكانت محدودة أيضًا في طرق استخدام بيانات المستخدمين بسبب التغييرات التي أدخلتها في سياستها التي تركز على الخصوصية بعد فضيحة كامبريدج أناليتيكا.

وبشكل عام، تتصارع Google، OpenAI، وعالم تدريب الذكاء الاصطناعي بأسره مع ضياع بيانات التدريب بسرعة من نماذجهم، التي تتحسن كلما استوعبت المزيد من البيانات. وكتبت صحيفة وول ستريت هذا الأسبوع بأن الشركات قد تفوق على المحتوى الجديد بحلول عام 2028.

وتشمل الحلول المحتملة لهذه المشكلة التي ذكرتها الصحيفة يوم الاثنين تدريب النماذج على بيانات “تركيبية” تم إنشاؤها بواسطة نماذجهم الخاصة أو ما يُعرف بـ “تعلم المنهج”، الذي يتضمن تغذية النماذج ببيانات عالية الجودة بطريقة مرتبة على أمل أن يتمكنوا من استخدام “روابط أكثر ذكاءً بين المفاهيم” باستخدام معلومات أقل بكثير، ولكن لا توجد دراسات مؤكدة حتى الآن تثبت فعالية أي من النهجين. ومع ذلك، فإن الخيار الآخر للشركات هو استخدام أي شيء يمكنها العثور عليه، سواء كان لديها إذن أو لا، وبناءً على عدة دعاوى قضائية تم رفعها خلال العام الماضي أو نحو ذلك، يمكن القول إن هذه الطريقة، على سبيل المثال، هي أكثر من مجرد محفوفة بالمخاطر.