كشف تقرير نُشر في صحيفة نيويورك تايمز عن الجهود التي بذلتها الشركات الرائدة في مجال الذكاء الاصطناعي لتوسيع نطاق وصولها إلى بيانات التدريب.
في بداية هذا الأسبوع، أفادت صحيفة وول ستريت جورنال بأن شركات الذكاء الاصطناعي تواجه تحديًا في جمع بيانات التدريب عالية الجودة. وفي هذا السياق، ذكرت نيويورك تايمز بعض الإجراءات التي اتخذتها هذه الشركات لمواجهة هذه المشكلة. وكما هو متوقع، تتضمن هذه الإجراءات أفعالًا تتحرك في منطقة غير محددة بوضوح في قوانين حقوق النشر في مجال الذكاء الاصطناعي.
تبدأ القصة بشركة OpenAI التي، بحاجة ماسة للبيانات التدريبية، قامت بتطوير نموذجها Whisper لتحويل الصوت إلى نص لتجاوز هذه العقبة، وذلك عبر نسخ أكثر من مليون ساعة من مقاطع فيديو YouTube لتدريب GPT-4، أحدث نموذج لغوي كبير وأكثر تطورًا لديها. ووفقًا لتقرير نيويورك تايمز، كانت الشركة على علم بأن هذا الإجراء قد يتعارض مع القوانين، لكنها اعتبرت أنه استخدام مقبول قانونيًا. وكان الرئيس التنفيذي لـ OpenAI جريج بروكمان شخصيًا مشاركًا في جمع الفيديوهات المستخدمة في التدريب، حسبما ذكرت نيويورك تايمز.
صرح متحدث باسم OpenAI لموقع The Verge عبر البريد الإلكتروني بأن الشركة تجمع بيانات “فريدة” لكل نموذج لها بهدف “تعزيز فهمها للعالم” والحفاظ على تنافسيتها العالمية في مجال البحث. وأضاف أن الشركة تعتمد على “مصادر متنوعة تشمل البيانات المتاحة علنًا والشراكات للبيانات غير العلنية”، وأنها تدرس إنشاء بيانات تركيبية خاصة بها.
وأفادت نيويورك تايمز بأن OpenAI استنفدت مصادر البيانات المفيدة في عام 2021، وبدأت بالنقاش حول نقل مقاطع فيديو YouTube والبودكاست والكتب الصوتية بعد استنفاد الموارد الأخرى. وكانت الشركة قد قامت بتدريب نماذجها باستخدام بيانات تتضمن الكود الحاسوبي من موقع Github، وقواعد الشطرنج، ومحتوى الدروس من Quizlet.
وفي سياق متصل، صرح متحدث باسم جوجل، مات برايانت، لموقع The Verge ايضاً عبر البريد الإلكتروني بأن الشركة “لاحظت تقارير غير مؤكدة” عن نشاط OpenAI، مشيرًا إلى أن “كل من ملفات robots.txt الخاصة بنا وشروط الخدمة تمنعان الاسترداد أو التنزيل غير المصرح به لمحتوى YouTube”، مؤكدًا موقف الشركة. وأشار إلى أن جوجل جمع أيضًا نصوصًا من YouTube وقام بتدريب نماذجه “على بعض محتوى YouTube، وفقًا لاتفاقياتنا مع مبدعي YouTube”.
كما أشارت نيويورك تايمز إلى أن قسم القانون في جوجل طلب من فريق الخصوصية للشركة تعديل لغة سياستها لتوسيع مجال استخدام بيانات المستخدمين، مثل أدوات المكتب مثل Google Docs، حيث تم إطلاق السياسة الجديدة بشكل متعمد في الأول من يوليو للاستفادة من التشتت الناجم عن عطلة عيد الاستقلال.
وبشكل مشابه، واجهت ميتا تحديات في توفر بيانات التدريب عالية الجودة، وفي تسجيلات استمعت إليها نيويورك تايمز، ناقش فريق الذكاء الاصطناعي لديها استخدام الأعمال المحمية بحقوق النشر دون إذن أثناء العمل على اللحاق بـ OpenAI. وبعد استكمال “تقريبًا كل كتاب ومقال وقصيدة وخبر باللغة الإنجليزية المتاحة على الإنترنت”، نظرت الشركة في اتخاذ خطوات مثل دفع تكاليف تراخيص الكتب أو حتى شراء ناشر كبير. وكانت محدودة أيضًا في طرق استخدام بيانات المستخدمين بسبب التغييرات التي أدخلتها في سياستها التي تركز على الخصوصية بعد فضيحة كامبريدج أناليتيكا.
وبشكل عام، تتصارع Google، OpenAI، وعالم تدريب الذكاء الاصطناعي بأسره مع ضياع بيانات التدريب بسرعة من نماذجهم، التي تتحسن كلما استوعبت المزيد من البيانات. وكتبت صحيفة وول ستريت هذا الأسبوع بأن الشركات قد تفوق على المحتوى الجديد بحلول عام 2028.
وتشمل الحلول المحتملة لهذه المشكلة التي ذكرتها الصحيفة يوم الاثنين تدريب النماذج على بيانات “تركيبية” تم إنشاؤها بواسطة نماذجهم الخاصة أو ما يُعرف بـ “تعلم المنهج”، الذي يتضمن تغذية النماذج ببيانات عالية الجودة بطريقة مرتبة على أمل أن يتمكنوا من استخدام “روابط أكثر ذكاءً بين المفاهيم” باستخدام معلومات أقل بكثير، ولكن لا توجد دراسات مؤكدة حتى الآن تثبت فعالية أي من النهجين. ومع ذلك، فإن الخيار الآخر للشركات هو استخدام أي شيء يمكنها العثور عليه، سواء كان لديها إذن أو لا، وبناءً على عدة دعاوى قضائية تم رفعها خلال العام الماضي أو نحو ذلك، يمكن القول إن هذه الطريقة، على سبيل المثال، هي أكثر من مجرد محفوفة بالمخاطر.