هوش مصنوعی اوپن ای آی از مدل قبلی بیشتر توهم می زند
اوپن ای آی به تازگی مدل های هوش مصنوعی o۳ و o۴ مینی را عرضه کرده که از بسیاری جهات خارق العاده هستند. اما این مدل های جدید همچنان گرفتار توهم هستند یا اطلاعاتی نادرستی ارائه می کنند.
به گزارش خبرگزاری مهر به نقل از تک کرانچ، در واقع این مدل ها بیش از نسخه های قدیمی تر اوپن ای آی توهم دارند. به نظر می رسد توهم یکی از بزرگترین و سخت ترین چالش های هوش مصنوعی است که حتی سیستم هایی با بهترین عملکرد نیز با آن روبرو می شوند. از لحاظ تاریخی هر مدل جدید اندکی در بخش کاهش توهم بهتر عمل کرده و این شاخص در مدل های جدیدتر نسبت به قدیمی تر بهتر شده است. اما این امر در خصوص o۳ و o۴ مینی صدق نمی کند.
طبق تست های داخلی اوپن ای آی o۳ و o۴ مینی که مدل های استدلالی نیز نامیده می شوند، بیشتر از مدل های استدلالی پیشین(o۱، o۱mini و o۳mini) و همچنین مدل های سنتی اوپن ای آی یعنی مدل های غیراستدلالی مانند جی پی تی ۴o توهم دارند.
اما نکته نگران کننده تر آن است که سازنده چت جی پی تی نیز دلیل این امر را نمی داند. اوپن ای آی در گزارش فنی o۳ و o۴ مینی نوشته تحقیقات بیشتری برای درک آنکه چرا با ارتقای مدل های استدلالی وضعیت توهم آنها بدتر می شود، لازم است.
این شرکت فناوری متوجه شد o۳ به ۳۳ درصد از سوالاتی که در PersonQA(بنچمارک شرکت برای اندازه گیری صحت دانش مدل درباره افراد) پرسیده می شود، با توهم پاسخ می دهد.این رقم تقریبا دو برابر توهم مدل های استدلالی پیشین اوپن ای آی یعنی o۳ و o۴ مینی است که این شاخص در آنها به ترتیب ۱۶ و ۱۴.۸ درصد بود. o۴mini حتی در این بنچمارک عملکرد بدتری داشت و در ۴۸ درصد مواقع دچار توهم می شد.
Transluce یک آزمایشگاه تحقیقات هوش مصنوعی غیرانتفاعی نیز شواهدی از آن یافت که o۳ تمایل به ابداع اقداماتی در فرایند پاسخ دادن به سوالات دارد. این موسسه در یک مثال متوجه شد o۳ کدی را در مک بوک پرو ۲۰۲۱ خارج از چت جی پی تی اجرا کرده و در مرحله بعد این اعداد در پاسخ به سوالاتش کپی کرد. هرچند o۳ به برخی ابزارها دسترسی دارد، اما نمی تواند این کار را انجام دهد.
ارسال دیدگاه
مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰