دوشنبه 02 اردیبهشت 1404 - 12:14
مدل هوش مصنوعی o3 شرکت OpenAI در ارزیابیها کمتر از انتظار امتیاز گرفت
زومیت/ ظاهراً عملکرد مدل هوش مصنوعی o3 در معیار FrontierMath، با آنچه OpenAI رسماً اعلام کرده بود، تفاوت زیادی دارد.
مدل هوش مصنوعی o3 که در دسامبر (آذر و دی ۱۴۰۳) معرفی شد، ابتدا با ادعای پاسخگویی به بیش از ۲۵ درصد از سؤالات مجموعهی ریاضی FrontierMath توجهات را به خود جلب کرد؛ عددی که بهمراتب بالاتر از عملکرد سایر مدلها بود؛ اما حالا نتایج ارزیابی مستقل مؤسسهی Epoch AI، این ادعاها را زیر سؤال برده است.
طبق گزارش Epoch، مدل o3 فقط حدود ۱۰ درصد از سؤالات FrontierMath را با موفقیت پاسخ داده که این عدد بسیار پایینتر از ادعای اولیهی OpenAI است.
همین اختلاف باعث شد بحثهایی دربارهی شفافیت و نحوهی بنچمارکگرفتن OpenAI شکل بگیرد، بهویژه اینکه نسخهی تستشدهی این شرکت احتمالاً به منابع پردازشی بیشتری دسترسی داشته است.
Epoch AI
بنیاد ARC Prize اعلام کرد که نسخهی عمومی مدل o3 با نسخهی مورد استفاده در بنچمارکهای اولیه تفاوت دارد و برای کاربردهای روزمره مانند چت بهینهسازی شده است. به عبارتی، نسخهی نهایی عملکرد بهتری در دنیای واقعی دارد، اما در تستهای سنگین امتیاز کمتری کسب میکند.
شرکت OpenAI نیز اذعان داشت که نسخهی نهایی o3 بهمنظور افزایش سرعت پاسخدهی و کاهش هزینه بهینه شده است و امکان دارد با نسخهی نمایشی اولیه در نتایج بنچمارک تفاوتهایی داشته باشد. این شرکت همچنین وعده داد در آیندهی نزدیک مدل قدرتمندتری تحت عنوان o3-pro منتشر خواهد شد.
ماجرای نتایج عملکرد مدل o3 بار دیگر نشان میدهد که بنچمارکهای مدلهای هوش مصنوعی همیشه قابل اتکا نیستند؛ بهویژه زمانی که از سوی شرکتهای سازندهی مدلها منتشر شوند. در شرایط رقابتی فعلی بازار هوش مصنوعی، شرکتها گاهی برای جلب توجه، اطلاعات خود را بهصورت گزینشی منتشر میکنند.
پربیننده ترین
-
عکس مسی درآمد؛ آخرین توپ طلا با آرایشگر ویژه!
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
آخرین وضعیت راهها در چهارمین روز از سال جدید؛ محور چالوس از شنبه دوباره بسته میشود
-
زنده؛ بیرانوند در یک قدمی استقلال
-
"دنا پلاس اتومات" بخریم یا "تارا اتومات؟"/ مقایسه اختصاصی "آخرینخودرو" از دو خودروی پرطرفدار
-
چالش/ بازیکن داخل تصویر رو حدس بزن (16)
-
5 نشانه ضعیف شدن ریه ها و بهترین روش تقویت آن چیست؟
-
لندکروزر یا ۲۰۶؟ / مقایسه جالب "آخرینخودرو" به بهانه سخنان جنجالی میرسلیم
-
سپ، برترین شرکت در خاورمیانه شد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (28)
-
ویدیو تست و بررسی فیدلیتی پرایم جدید در آخرین خودرو
-
چالش/ بازیکن داخل تصویر رو حدس بزن (14)
-
لحظه به لحظه با جدال پرسپولیس مقابل النصر
-
چالش/ بازیکن داخل تصویر رو حدس بزن (22)
-
یحیی مچ ساپینتو را خواباند / برد ارزشمند پرسپولیس در صدمین شهرآورد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (19)
-
چالش/بازیکن داخل تصویر رو حدس بزن (11)
آخرین اخبار
-
یه سوپرگل فوقالعاده در مسابقات محلی انگلیس
-
نویسنده و مدیرعامل سابق ایرنا مجرم شناخته شدند
-
عشق زن پسرخاله جنایت آفرید
-
هنرنمایی بهاره رهنما در نمایش «دورهمی زنهای دیکتاتورها»
-
واکنش ثابتی به سرمایهگذاری بابک زنجانی در حوزه ریلی
-
چهره ها/ عکسی که یارِ غزل شاکری از او شکار کرد
-
نبراسکا زیر بارش تگرگهای سهمگین
-
تنش در باشگاه پرسپولیس
-
شوخی عالی «امیرحسین قیاسی» با شوآف محمدرضا گلزار
-
حضور هواداران معترض پرسپولیس مقابل باشگاه
-
عطریانفر: موضع رهبری در قبال مذاکرات کاملا هوشمندانه و عاقلانه است
-
پیروزی بزرگ تیم والیبال لوبه مقابل پروجا
-
رحمان و رحیم «پایتخت» از عشق و علاقه به هومن حاجی عبداللهی میگویند
-
پایداری شبکه برق تهران؛ قطع برق داخلی بود
-
۳۶ درصد کارمندان آذربایجانشرقی در آستانه بازنشستگی
سایر اخبار مرتبط
نظرات
ثبت نظر
مهمترین اخبار
برق در حضور وزیر نیرو رفت!
دوشنبه 02 اردیبهشت 1404 - 11:49:34
صادق: آزادراه تهران ـ شمال مشکل منابع مالی دارد
دوشنبه 02 اردیبهشت 1404 - 11:29:11
وزیر کار برای توضیحات درباره حذف یارانهها به مجلس میرود
دوشنبه 02 اردیبهشت 1404 - 11:16:12
پیشنهاد افزایش تعرفه های برق از ابتدای خرداد
دوشنبه 02 اردیبهشت 1404 - 10:04:28
طلای جهانی پرواز کرد، اما دلار جا ماند!
دوشنبه 02 اردیبهشت 1404 - 09:38:35