امتیاز هوش مصنوعی اوپن ای آی دروغ از آب درآمد

اختلافی بین نتایج آزمایش مدل هوش مصنوعی o۳ اوپن ای آی در بنچمارک طرف اول و ثالث سوالاتی درباره شفافیت این شرکت و روش های تست مدل های آن به وجود آورده است.

به گزارش خبر گزاری مهر به نقل از تک کرانچ، اوپن ای آی هنگام رونمایی این مدل را در دسامبر ۲۰۲۴ میلادی مدعی شد o۳ می تواند بیش از یک چهارم سئوالات در بنچمارک FrontierMath (مجموعه ای چالش برانگیز از مسئله های ریاضی) را پاسخ دهد.

مارک چن محقق ارشد اوپن ای آی در یک برنامه پخش زنده گفت: امروز تمام محصولات ارائه شده در بنچمارک FrontierMath کمتر از دو درصد امتیاز دارند. ما در تست های داخلی o۳ که در محیط های رایانشی با عملکرد بالا انجام شد به امتیاز بیش از ۲۵ درصد دست یافتیم.

به نظر می رسد این رقم احتمالاً حد بالایی بود که توسط نسخه ای از o۳ با محاسبات بیشتر نسبت به مدل OpenAI که هفته گذشته به طور عمومی عرضه شد به دست آمد. انستیتو تحقیقات Epoch AI که بنچمارک FrontierMath را ارائه می کند، نتایج تست های مستقل خود از o۳ را منتشر کرد. این شرکت متوجه شد امتیاز این مدل حدود ۱۰ درصد و بسیار پایین تر از ارقام بسیار بالای ادعا شده توسط اوپن ای آی است.

البته این بدان معنا نیست که اوپن ای آی دروغ گفته است. نتایج تست در بنچمارک که شرکت در دسامبر ۲۰۲۴ منتشر کرد نشان دهنده امتیازی کمتر است که با آنچه Epoch رصد کرده مطابقت دارد.