شركة
Credits: wikipedia

شركة "OpenAI" إستخدمت أكثر من مليون ساعة من مقاطع فيديو يوتيوب لتدريب نموذج "GPT-4"

إستخدمت شركة "أوبن إيه آي- OpenAI" أكثر من مليون ساعة من مقاطع فيديو يوتيوب لتدريب نموذج "جي بي تي-4" (GPT-4) ، وهو أحدث نماذجها اللغوية وأكثرها تطوراً، الأمر الذي أثار جدلاً حول المعايير القانونية والأخلاقية لإستخدام البيانات في تطوير نماذج الذكاء الاصطناعي التوليدي، وفقاً لتقرير من صحيفة نيويورك تايمز.

ويؤكد هذا الإكتشاف على التحدي الكبير الذي تواجهه شركات الذكاء الاصطناعي في الحصول على بيانات تدريب بجودة عالية لنماذجها، مما يدفعها إلى منطقة مثيرة للجدل فيما يتعلق بقوانين حقوق النشر ومطالبات الإستخدام العادل للبيانات.

من جهته، أفاد مات براينت، المتحدث باسم غوغل، لموقع "ذا فيرج The Verge" أن الشركة اطلعت على تقارير غير مؤكدة حول نشاط ،"أوبن إيه آي- OpenAI" مضيفا أن شروط الخدمة الخاصة بغوغل تحظر عمليات إستخدام أو تنزيل محتوى يوتيوب غير المصرح بها.

وأيضاً غوغل نفسها تجمع مقاطع من يوتيوب، وفقاً للتقرير، وذكر براينت في هذا السياق إن الشركة دربت نماذجها "على بعض محتوى يوتيوب، وفقاً لإتفاقياتنا مع صانعي المحتوى على المنصة".

بالإضافة إلى ذلك، أدى السعي للحصول على مجموعات بيانات ضخمة ومتنوعة لتدريب تلك النماذج المتطورة إلى بحث شركة عن"أوبن إيه آي- OpenAI" إستخدام أساليب مبتكرة لتغذية خوارزمياتها.

ووفقاُ للتقرير، طوّرت الشركة نموذج "ويسبر" (Whisper) لتفريغ المحتوى الصوتي بهدف تسهيل تدريب نموذجها التأسيسي "جي بي تي-4" (GPT-4)، وذلك بالاستفادة من كميات هائلة من محتوى يوتيوب.

في المقابل، يثير هذا التصرف، الذي تدفعه الحاجة إلى الاحتفاظ بالميزة التنافسية وتعزيز أداء النموذج، تساؤلات حول قانونية وأخلاقيات إستخدام المواد المحمية بحقوق الطبع والنشر دون إذن مسبق وصريح من المنصة مالكة المحتوى.

كما لا يقتصر مأزق الحصول على بيانات تدريب جيدة على"أوبن إيه آي- OpenAI" فقط، فهو يعكس توجها أوسع في هذا المجال إذ تقترب شهية مطوري أنظمة الذكاء الإصطناعي من تجاوز حدود الموارد المتاحة من تلك البيانات.

وقد أدى هذا إلى النظر في إستراتيجيات بديلة، تشمل تدريب النماذج على بيانات "إصطناعية" أنتجتها تلك النماذج نفسها، أو ما يسمى "التعلم المنهجي" الذي يتضمن تغذية النماذج ببيانات عالية الجودة بأسلوب مرتب على أمل أن تتمكن من إنشاء روابط أكثر ذكاءً بين المفاهيم باستخدام معلومات أقل بكثير، ولكن لم يختبر أي من هذه الإستراتيجيات حتى الآن، كما أشار تقرير آخر من صحيفة وول ستريت جورنال.


* Stories are edited and translated by Info3 *
Non info3 articles reflect solely the opinion of the author or original source and do not necessarily reflect the views of Info3