شنبه 31 فروردین 1404 - 17:30
مدلهای هوش مصنوعی استدلالگر جدید OpenAI بیشتر دچار توهم میشوند
دیجیاتو/ طبق تستهای OpenAI، 2 مدل استدلالگر جدید این شرکت، o3 و o4-mini، بیشتر از مدلهای قبلی دچار توهم میشوند.
چند روز قبل OpenAI از مدلهای استدلالگر جدیدش، o3 و o4-mini، رونمایی کرد که از بسیاری جهات از مدلهای قبلی این شرکت پیشرفت کردهاند. البته طبق گزارشهای جدید این مدلها هنوز دچار توهم میشوند؛ یعنی چیزهایی میگویند که واقعیت ندارد.
براساس گزارش تککرانچ، 2 مدل استدلالگر o3 و o4-mini شرکت OpenAI توهم زیادی دارند. طبق تستهای OpenAI، این 2 مدل استدلالگر بیشتر از مدلهای استدلالگر قبلی شرکت، o1 ،o1-mini و o3-mini، همچنین مدلهای معمولی OpenAI مانند GPT-4o توهم ایجاد میکنند.
درکل توهمات یکی از بزرگترین مسائل هوش مصنوعی است که برطرفکردن آنها بسیار دشوار است. بااینحال مدلهای جدید کمی در بخش توهم بهبود مییابند و کمتر از مدل قبلی خود دچار توهم میشوند اما این امر درباره o3 و o4-mini صادق نیست.
توهم در مدلهای هوش مصنوعی جدید OpenAI
نکته نگرانکنندهتر این است که OpenAI واقعاً نمیداند چرا این اتفاق میافتد. سازنده ChatGPT در گزارش فنی خود برای o3 و o4-mini مینویسد: «به تحقیقات بیشتری نیاز است تا بفهمیم چرا توهمات با پیشرفت مدلهای استدلالی افزایش یافته است.»
O3 و o4-mini در برخی زمینهها ازجمله کارهای مربوط به کدنویسی و ریاضی عملکرد بهتری دارند اما ازآنجاییکه آنها «درکل ادعاهای بیشتری دارند»، طبق گزارش OpenAI، اغلب همانقدر که ادعاهای دقیقتری میکنند، ادعاهای نادرست و متوهمتری نیز ارائه میدهند.
OpenAI میگوید o3 در پاسخ به 33 درصد سؤالات PersonQA (بنچمارک داخلی شرکت برای سنجش دقت دانش مدل درباره اشخاص) توهم ایجاد میکند. این تقریباً دو برابر میزان توهم مدلهای استدلالگر قبلی o1 و o3-mini است که بهترتیب امتیاز بنچمارک آنها 16 درصد و 14.8 درصد بود. مدل O4-mini نیز عملکرد بدتری در PersonQA دارد: 48 درصد.
توهمات ممکن است به مدلها کمک کند به ایدههای جالبی برسند و خلاق باشند اما این امر برای کسبوکارها و کاربرانی که نیاز به دقت بالایی در خروجی هوش مصنوعی دارند، مشکلساز است. یکی از روشهای امیدوارکننده برای افزایش دقت مدلها، داشتن قابلیت جستجوی وب مدلهاست؛ برای مثال مدل GPT-4o با قابلیت جستجوی وب، امتیاز 90 درصدی در SimpleQA (یکی دیگر از بنچمارکهای سنجش دقت) به دست آورد.
پربیننده ترین
-
عکس مسی درآمد؛ آخرین توپ طلا با آرایشگر ویژه!
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
آخرین وضعیت راهها در چهارمین روز از سال جدید؛ محور چالوس از شنبه دوباره بسته میشود
-
زنده؛ بیرانوند در یک قدمی استقلال
-
"دنا پلاس اتومات" بخریم یا "تارا اتومات؟"/ مقایسه اختصاصی "آخرینخودرو" از دو خودروی پرطرفدار
-
چالش/ بازیکن داخل تصویر رو حدس بزن (16)
-
5 نشانه ضعیف شدن ریه ها و بهترین روش تقویت آن چیست؟
-
لندکروزر یا ۲۰۶؟ / مقایسه جالب "آخرینخودرو" به بهانه سخنان جنجالی میرسلیم
-
سپ، برترین شرکت در خاورمیانه شد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (28)
-
ویدیو تست و بررسی فیدلیتی پرایم جدید در آخرین خودرو
-
چالش/ بازیکن داخل تصویر رو حدس بزن (14)
-
لحظه به لحظه با جدال پرسپولیس مقابل النصر
-
چالش/ بازیکن داخل تصویر رو حدس بزن (22)
-
یحیی مچ ساپینتو را خواباند / برد ارزشمند پرسپولیس در صدمین شهرآورد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (19)
-
چالش/بازیکن داخل تصویر رو حدس بزن (11)
آخرین اخبار
-
کشف ۱۰۰ کیلو خاک طلا و نقره توسط پلیس راه آهن
-
گل دوم بایرنمونیخ به هایدنهایم توسط لایمر
-
گل اول بایرنمونیخ به هایدنهایم توسط هری کین
-
ایران- روسیه قطعی شد؛ 2 بازی در مهر
-
ریوالدو، اسطوره برزیلی باشگاه بارسلونا 53 ساله شد
-
حماس اعلام کرد جان اسرای صهیونیست در خطر است
-
پرنده ای زیبا در میان شکوفه های بهاری
-
چرا از کمربند بعد از عمل کمر استفاده میشود؟
-
اعترافات تلخ خلبانان اسرائیلی درباره حملات غزه
-
دومین تخمگذاری لاکپشتهای زیتونی در پارک ملی دریایی نایبند
-
جایگاه شادی در فرهنگ ایران باستان و اشعار شاعران ایرانی
-
دایی: پرسپولیس در رختکن قهرمانی را از دست داد!
-
مشاهده رنگی کاملا جدید توسط چشم انسان
-
دیلی بیست اولین اخراجی دولت ترامپ را اعلام کرد
-
مسئولان ارشد لرستان در تقدیر از تیم خیبر
سایر اخبار مرتبط
نظرات
ثبت نظر
مهمترین اخبار
قیمت محصولات ایران خودرو امروز 30 فروردین 1404
شنبه 31 فروردین 1404 - 16:51:32
انتقال مستقیم پول از باکس پسانداز / یک قابلیت جدید و کاربردی در اپلیکیشن بلو
شنبه 31 فروردین 1404 - 16:41:31
آشنایی با مشکلات رایج گیربکس ماشین
شنبه 31 فروردین 1404 - 16:33:16
معامله ۵۴۶ هزارگواهی سپرده زعفران در بورس کالا
شنبه 31 فروردین 1404 - 16:05:38
سامانه خودنویس ابزاری برای مقابله با سوداگری در حوزه مسکن
شنبه 31 فروردین 1404 - 15:40:32