تنش در عرصه هوش مصنوعی:

ابهامات پیرامون عملکرد o3 و تاثیر آن بر رقابت با گوگل


به گزارش لینک بگیر دات کام اختلافی بین نتایج آزمایش مدل هوش مصنوعی o۳ اوپن ای آی در بنچمارک طرف اول و ثالث سوالاتی درباره شفافیت این شرکت و روش های تست مدل های آن به وجود آورده است.

به گزارش خبر گزاری مهر به نقل از تک کرانچ، اوپن ای آی هنگام رونمایی این مدل را در دسامبر ۲۰۲۴ میلادی ادعا نمود o۳ می تواند بالاتر از یک چهارم سئوالات در بنچمارک FrontierMath (مجموعه ای چالش برانگیز از مسئله های ریاضی) را پاسخ دهد. مارک چن محقق ارشد اوپن ای آی در یک برنامه پخش زنده اظهار داشت: امروز تمام محصولات ارائه شده در بنچمارک FrontierMath کمتر از دو درصد امتیاز دارند. ما در تست های داخلی o۳ که در محیط های رایانشی با عملکرد بالا انجام شد به امتیاز بالاتر از ۲۵ درصد دست یافتیم. بنظر می رسد این رقم احیانا حد بالایی بود که توسط نسخه ای از o۳ با محاسبات بیشتر نسبت به مدل OpenAI که هفته گذشته بطور عمومی ارائه شد به دست آمد. انستیتو تحقیقات Epoch AI که بنچمارک FrontierMath را ارائه می کند، نتایج تست های مستقل خود از o۳ را منتشر نمود. این شرکت متوجه شد امتیاز این مدل حدود ۱۰ درصد و بسیار پایین تر از ارقام بسیار بالای ادعا شده توسط اوپن ای آی است. البته این بدان معنا نیست که اوپن ای آی دروغ گفته است. نتایج تست در بنچمارک که شرکت در دسامبر ۲۰۲۴ منتشر نمود نشان دهنده امتیازی کمتر است که با آن چه Epoch رصد کرده مطابقت دارد.

اختلاف در امتیازدهی مدل زبانی بزرگ o3 از سوی OpenAI و موسسه تحقیقاتی Epoch AI، سوالات مهمی را در مورد نحوه ارزیابی و مقایسه توانایی‌های هوش مصنوعی مطرح می‌کند. در حالی که OpenAI در زمان رونمایی مدعی دستیابی o3 به امتیاز بالای ۲۵ درصد در بنچمارک چالش‌برانگیز FrontierMath شد، نتایج مستقل Epoch AI نشان می‌دهد که عملکرد این مدل به مراتب پایین‌تر و در حدود ۱۰ درصد است. این تناقض، نه تنها دقت ادعاهای اولیه OpenAI را زیر سوال می‌برد، بلکه بر پیچیدگی‌های موجود در سنجش واقعی قدرت و قابلیت‌های مدل‌های هوش مصنوعی پیشرفته تاکید می‌کند.
 
در این میان، نقش شرکت‌های بزرگ فناوری مانند گوگل که خود نیز در زمینه توسعه مدل‌های زبانی بزرگ پیشرو هستند، اهمیت بیشتری پیدا می‌کند. شفافیت در ارائه معیارها و روش‌های ارزیابی عملکرد این مدل‌ها برای ایجاد اعتماد و درک صحیح از پیشرفت‌های حاصل شده، حیاتی است. ماجرای o3 می‌تواند درسی برای کل صنعت هوش مصنوعی باشد تا با رویکردی دقیق‌تر و شفاف‌تر به ارزیابی و انتشار نتایج مربوط به مدل‌های خود بپردازند، به خصوص زمانی که صحبت از بنچمارک‌های پیچیده و چالش‌برانگیز به میان می‌آید. این امر به کاربران، محققان و عموم مردم کمک می‌کند تا دیدگاه واقع‌بینانه‌تری نسبت به توانایی‌ها و محدودیت‌های هوش مصنوعی داشته باشند.

 


منبع:

1404/02/02
19:49:15
5.0 / 5
21
تگهای مطلب: گوگل , اوپن ای آی , فناوری , هوش مصنوعی
این مطلب را می پسندید؟
(1)
(0)
X
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد مطلب
نظر شما در مورد مطلب
نام:
ایمیل:
نظر:
سوال:
= ۷ بعلاوه ۱