جمعه 13 اردیبهشت 1404 - 12:17
مدل هوش مصنوعی o3 شرکت OpenAI در ارزیابیها کمتر از انتظار امتیاز گرفت
زومیت/ ظاهراً عملکرد مدل هوش مصنوعی o3 در معیار FrontierMath، با آنچه OpenAI رسماً اعلام کرده بود، تفاوت زیادی دارد.
مدل هوش مصنوعی o3 که در دسامبر (آذر و دی ۱۴۰۳) معرفی شد، ابتدا با ادعای پاسخگویی به بیش از ۲۵ درصد از سؤالات مجموعهی ریاضی FrontierMath توجهات را به خود جلب کرد؛ عددی که بهمراتب بالاتر از عملکرد سایر مدلها بود؛ اما حالا نتایج ارزیابی مستقل مؤسسهی Epoch AI، این ادعاها را زیر سؤال برده است.
طبق گزارش Epoch، مدل o3 فقط حدود ۱۰ درصد از سؤالات FrontierMath را با موفقیت پاسخ داده که این عدد بسیار پایینتر از ادعای اولیهی OpenAI است.
همین اختلاف باعث شد بحثهایی دربارهی شفافیت و نحوهی بنچمارکگرفتن OpenAI شکل بگیرد، بهویژه اینکه نسخهی تستشدهی این شرکت احتمالاً به منابع پردازشی بیشتری دسترسی داشته است.
Epoch AI
بنیاد ARC Prize اعلام کرد که نسخهی عمومی مدل o3 با نسخهی مورد استفاده در بنچمارکهای اولیه تفاوت دارد و برای کاربردهای روزمره مانند چت بهینهسازی شده است. به عبارتی، نسخهی نهایی عملکرد بهتری در دنیای واقعی دارد، اما در تستهای سنگین امتیاز کمتری کسب میکند.
شرکت OpenAI نیز اذعان داشت که نسخهی نهایی o3 بهمنظور افزایش سرعت پاسخدهی و کاهش هزینه بهینه شده است و امکان دارد با نسخهی نمایشی اولیه در نتایج بنچمارک تفاوتهایی داشته باشد. این شرکت همچنین وعده داد در آیندهی نزدیک مدل قدرتمندتری تحت عنوان o3-pro منتشر خواهد شد.
ماجرای نتایج عملکرد مدل o3 بار دیگر نشان میدهد که بنچمارکهای مدلهای هوش مصنوعی همیشه قابل اتکا نیستند؛ بهویژه زمانی که از سوی شرکتهای سازندهی مدلها منتشر شوند. در شرایط رقابتی فعلی بازار هوش مصنوعی، شرکتها گاهی برای جلب توجه، اطلاعات خود را بهصورت گزینشی منتشر میکنند.
پربیننده ترین
-
عکس مسی درآمد؛ آخرین توپ طلا با آرایشگر ویژه!
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
آخرین وضعیت راهها در چهارمین روز از سال جدید؛ محور چالوس از شنبه دوباره بسته میشود
-
زنده؛ بیرانوند در یک قدمی استقلال
-
"دنا پلاس اتومات" بخریم یا "تارا اتومات؟"/ مقایسه اختصاصی "آخرینخودرو" از دو خودروی پرطرفدار
-
چالش/ بازیکن داخل تصویر رو حدس بزن (16)
-
5 نشانه ضعیف شدن ریه ها و بهترین روش تقویت آن چیست؟
-
لندکروزر یا ۲۰۶؟ / مقایسه جالب "آخرینخودرو" به بهانه سخنان جنجالی میرسلیم
-
سپ، برترین شرکت در خاورمیانه شد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (28)
-
ویدیو تست و بررسی فیدلیتی پرایم جدید در آخرین خودرو
-
چالش/ بازیکن داخل تصویر رو حدس بزن (14)
-
لحظه به لحظه با جدال پرسپولیس مقابل النصر
-
چالش/ بازیکن داخل تصویر رو حدس بزن (22)
-
یحیی مچ ساپینتو را خواباند / برد ارزشمند پرسپولیس در صدمین شهرآورد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (19)
-
چالش/بازیکن داخل تصویر رو حدس بزن (11)
آخرین اخبار
-
جیلی رادار هیبریدی در شانگهای معرفی شد؛ اولین وانت هیبریدی با گیربکس سه سرعته مخصوص
-
کمک ۳۰ میلیارد ریالی نیکوکاران ایلامی به تأمین مسکن نیازمندان
-
برگزاری جشنهای مردمی دهه کرامت در لرستان
-
اخبار لحظه به لحظه از حادثه انفجار در بندرعباس؛ تعداد فوتی ها به 14 نفر رسید
-
ای با همه کس به صلح و با ما به خلاف
-
در اجلاس نخبگان منابر شیعه مطرح شد: پیراهن خونین سیدالشهدا نماد مظلومیت و حقانیت شیعه
-
اعزام ۴ تیم امدادی به محل انفجار در اسکله شهید رجایی
-
نکات و ترفندهای خانه داری هوشمند
-
عکس/ تصاویری از مجروحان انفجار بندر شهید رجایی
-
ائمه جمعه اهل سنت کرمانشاه: حفظ وحدت نیاز مبرم ایران اسلامی است
-
دعا کردن در حق غیر؛ بالاترین نیکی
-
تصاویری از مصدومان حادثه انفجار در بندرعباس
-
شهردار سنندج: رویدادهای فرهنگی مشترک با اقلیم کردستان عراق برگزار میشود
-
یک بهله عقاب در پارک ملی قمیشلو رهاسازی شد
-
داستان تخم اژدها؛ نبرد نور و تاریکی در فاصله ۴۲۰۰ سال نوری
سایر اخبار مرتبط
نظرات
ثبت نظر
مهمترین اخبار
کاهش قیمتها در بازار طلا و سکه؛ دلار کانال 80 هزار تومان را از دست داد
شنبه 07 اردیبهشت 1404 - 12:22:08
از مسکن کارگری تا بازار سرمایه؛ برنامههای وزارت تعاون برای نجات معیشت مردم
شنبه 07 اردیبهشت 1404 - 11:09:02
سایه خاموشی برق بر شبکه اینترنت
شنبه 07 اردیبهشت 1404 - 10:26:49
ماشین ریش تراش سلطنتی مدل God frey
شنبه 07 اردیبهشت 1404 - 10:04:07
پشتپرده شایعات فروش کارت سوخت؛ دردسر جایگاهداران از تبادل کارتها
شنبه 07 اردیبهشت 1404 - 09:37:00