تنش در عرصه هوش مصنوعی:
ابهامات پیرامون عملکرد o3 و تاثیر آن بر رقابت با گوگل
به گزارش لینک بگیر دات کام اختلافی بین نتایج آزمایش مدل هوش مصنوعی o۳ اوپن ای آی در بنچمارک طرف اول و ثالث سوالاتی درباره شفافیت این شرکت و روش های تست مدل های آن به وجود آورده است.

به گزارش خبر گزاری مهر به نقل از تک کرانچ، اوپن ای آی هنگام رونمایی این مدل را در دسامبر ۲۰۲۴ میلادی ادعا نمود o۳ می تواند بالاتر از یک چهارم سئوالات در بنچمارک FrontierMath (مجموعه ای چالش برانگیز از مسئله های ریاضی) را پاسخ دهد. مارک چن محقق ارشد اوپن ای آی در یک برنامه پخش زنده اظهار داشت: امروز تمام محصولات ارائه شده در بنچمارک FrontierMath کمتر از دو درصد امتیاز دارند. ما در تست های داخلی o۳ که در محیط های رایانشی با عملکرد بالا انجام شد به امتیاز بالاتر از ۲۵ درصد دست یافتیم. بنظر می رسد این رقم احیانا حد بالایی بود که توسط نسخه ای از o۳ با محاسبات بیشتر نسبت به مدل OpenAI که هفته گذشته بطور عمومی ارائه شد به دست آمد. انستیتو تحقیقات Epoch AI که بنچمارک FrontierMath را ارائه می کند، نتایج تست های مستقل خود از o۳ را منتشر نمود. این شرکت متوجه شد امتیاز این مدل حدود ۱۰ درصد و بسیار پایین تر از ارقام بسیار بالای ادعا شده توسط اوپن ای آی است. البته این بدان معنا نیست که اوپن ای آی دروغ گفته است. نتایج تست در بنچمارک که شرکت در دسامبر ۲۰۲۴ منتشر نمود نشان دهنده امتیازی کمتر است که با آن چه Epoch رصد کرده مطابقت دارد.
اختلاف در امتیازدهی مدل زبانی بزرگ o3 از سوی OpenAI و موسسه تحقیقاتی Epoch AI، سوالات مهمی را در مورد نحوه ارزیابی و مقایسه تواناییهای هوش مصنوعی مطرح میکند. در حالی که OpenAI در زمان رونمایی مدعی دستیابی o3 به امتیاز بالای ۲۵ درصد در بنچمارک چالشبرانگیز FrontierMath شد، نتایج مستقل Epoch AI نشان میدهد که عملکرد این مدل به مراتب پایینتر و در حدود ۱۰ درصد است. این تناقض، نه تنها دقت ادعاهای اولیه OpenAI را زیر سوال میبرد، بلکه بر پیچیدگیهای موجود در سنجش واقعی قدرت و قابلیتهای مدلهای هوش مصنوعی پیشرفته تاکید میکند.
در این میان، نقش شرکتهای بزرگ فناوری مانند
گوگل که خود نیز در زمینه توسعه مدلهای زبانی بزرگ پیشرو هستند، اهمیت بیشتری پیدا میکند. شفافیت در ارائه معیارها و روشهای ارزیابی عملکرد این مدلها برای ایجاد اعتماد و درک صحیح از پیشرفتهای حاصل شده، حیاتی است. ماجرای o3 میتواند درسی برای کل
صنعت هوش مصنوعی باشد تا با رویکردی دقیقتر و شفافتر به ارزیابی و انتشار نتایج مربوط به مدلهای خود بپردازند، به خصوص زمانی که صحبت از بنچمارکهای پیچیده و چالشبرانگیز به میان میآید. این امر به کاربران، محققان و عموم مردم کمک میکند تا دیدگاه واقعبینانهتری نسبت به تواناییها و محدودیتهای هوش مصنوعی داشته باشند.
منبع: linkbegir.com
5.0 / 5
21
این مطلب را می پسندید؟
(1)
(0)
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد مطلب ابهامات پیرامون عملکرد o3 و تاثیر آن بر رقابت با گوگل