شنبه 31 فروردین 1404 - 19:24
مدلهای هوش مصنوعی استدلالی جدید «اوپنایآی» بیشتر توهم میزنند
ایسنا/بررسیها حاکی از آن هستند که امکان بروز توهم و تولید محتوای نادرست در مدلهای هوش مصنوعی استدلالی جدید «اوپنایآی» بیشتر است.
مدلهای هوش مصنوعی «o3» و «o4-mini» شرکت «اوپنایآی»(OpenAI) که اخیرا عرضه شدهاند، از بسیاری جهتها پیشرفته هستند. با وجود این، مدلهای جدید هنوز هم به توهم دچار میشوند یا محتوا را از خود میسازند. در واقع، آنها بیش از چندین مدل قدیمی اوپنایآی توهم دارند.
به نقل از تک کرانچ، توهم در حوزه هوش مصنوعی به تولید محتوای نادرست یا غیر منطقی توسط یک مدل گفته میشود. ثابت شده است که توهمات یکی از بزرگترین و دشوارترین مشکلات برای حل کردن در حوزه هوش مصنوعی هستند و حتی بر سیستمهای با بهترین عملکرد امروزی نیز تأثیر میگذارند. همه مدلهای جدید معمولا کمی در بخش توهم بهبود یافتهاند و کمتر از مدل پیشین خود توهم ایجاد میکنند، اما به نظر نمیرسد که این در مورد o3 و o4-mini صدق کند.
آزمایشهای داخلی شرکت اوپنایآی نشان میدهند o3 و o4-mini که «مدلهای استدلالی» هستند، بیشتر از مدلهای استدلالی پیشین شرکت شامل «o۱»، «o۱-mini» و «o۳-mini» و همچنین، مدلهای سنتی و غیر استدلالی آن مانند «GPT-4o» دچار توهم میشوند.
موضوع نگرانکنندهتر این است که سازنده «چتجیپیتی»(ChatGPT) واقعا نمیداند چرا این اتفاق رخ میدهد. اوپنایآی در گزارش فنی خود برای o3 و o4-mini نوشت: هنوز به بررسیهای بیشتری نیاز است تا بفهمیم چرا توهمات با افزایش مدلهای استدلالی بدتر میشوند. مدلهای O3 و o4-mini در برخی زمینهها از جمله وظایف مربوط به کدنویسی و ریاضی عملکرد بهتری دارند، اما از آنجا که آنها در کل ادعاهای بیشتری دارند، اغلب به سمت ادعاهای دقیقتر و ادعاهای نادرست و توهم بیشتر میروند.
اوپنایآی دریافت o3 در پاسخ به ۳۳ درصد از پرسشها پیرامون «PersonQA» که معیار داخلی شرکت برای سنجش دقت دانش یک مدل درباره افراد است، توهم ایجاد میکند. این تقریبا دو برابر میزان توهم مدلهای استدلال پیشین اوپنایآی شامل o1 و o3-mini است که به ترتیب به ۱۶ و ۱۴.۸ درصد پرسشها پاسخ دادهاند. مدل O4-mini حتی درباره PersonQA بدتر عمل کرد و ۴۸ درصد مواقع توهمزدگی داشت.
بررسی انجامشده در آزمایشگاه پژوهشی غیرانتفاعی هوش مصنوعی «Transluce» نیز شواهدی یافت مبنی بر این که o3 تمایل دارد اقدامات صورتگرفته در فرآیند رسیدن به پاسخ را جبران کند.
«نیل چاودری»(Neil Chowdhury)، پژوهشگر Transluce و کارمند سابق اوپنایآی در ایمیلی به تک کرانچ نوشت: فرضیه ما این است که نوع یادگیری تقویتیافته مورد استفاده برای مدلهای سری o ممکن است مشکلات کاهشیافته پس از آموزش را تقویت کند.
«سارا شوتمن»(Sarah Schwettmann) یکی از بنیانگذاران Transluce اضافه کرد که میزان توهم o3 ممکن است آن را کمتر از آنچه میتوانست باشد، سودمند کند.
«کیان کتانفروش»، استاد کمکی «دانشگاه استنفورد» و مدیرعامل استارتآپ ارتقاء مهارت «Workera» به تک کرانچ گفت که گروه او در حال حاضر در حال آزمایش o3 در گردش کار کدگذاری خود هستند و دریافتهاند که آن را یک گام جلوتر از رقبا قرار دادهاند. با وجود این، کتانفروش معتقد است که o3 به توهم تمایل دارد. این مدل، پیوندهایی را ارائه میدهد که وقتی روی آنها کلیک شود، کار نمیکند.
توهمات ممکن است به مدلها کمک کنند تا به ایدههای جالبی برسند و در تفکر خود خلاق باشند، اما فروش برخی از مدلها را در بازارهایی که دقت در آنها مهم است، به کار سختی تبدیل میکنند. به عنوان مثال، یک شرکت حقوقی احتمالا از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتری وارد میکند، راضی نخواهد بود.
یکی از روشهای امیدوارکننده برای افزایش دقت مدلها، دادن قابلیتهای جستوجوی وب به آنهاست. مدل GPT-4o با جستوجوی وب، دقت ۹۰ را در SimpleQA به دست میآورد که یکی دیگر از معیارهای دقت اوپنایآی است. به طور بالقوه، جستوجو میتواند نرخ توهم مدلهای استدلالی را نیز بهبود ببخشد.
اگر گسترش مدلهای استدلالی واقعا به تشدید توهم ادامه دهد، جستوجو برای یافتن راه حل را بیش از پیش ضروری میکند. «نیکو فلیکس»(Niko Felix)، سخنگوی اوپنایآی در یک ایمیل به تک کرانچ نوشت: رسیدگی به توهمات در همه مدلهای ما یک حوزه تحقیقاتی مداوم است و ما پیوسته برای بهبود دقت و قابلیت اطمینان آنها تلاش میکنیم.
پربیننده ترین
-
عکس مسی درآمد؛ آخرین توپ طلا با آرایشگر ویژه!
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
آخرین وضعیت راهها در چهارمین روز از سال جدید؛ محور چالوس از شنبه دوباره بسته میشود
-
زنده؛ بیرانوند در یک قدمی استقلال
-
"دنا پلاس اتومات" بخریم یا "تارا اتومات؟"/ مقایسه اختصاصی "آخرینخودرو" از دو خودروی پرطرفدار
-
چالش/ بازیکن داخل تصویر رو حدس بزن (16)
-
5 نشانه ضعیف شدن ریه ها و بهترین روش تقویت آن چیست؟
-
لندکروزر یا ۲۰۶؟ / مقایسه جالب "آخرینخودرو" به بهانه سخنان جنجالی میرسلیم
-
سپ، برترین شرکت در خاورمیانه شد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (28)
-
ویدیو تست و بررسی فیدلیتی پرایم جدید در آخرین خودرو
-
چالش/ بازیکن داخل تصویر رو حدس بزن (14)
-
لحظه به لحظه با جدال پرسپولیس مقابل النصر
-
چالش/ بازیکن داخل تصویر رو حدس بزن (22)
-
یحیی مچ ساپینتو را خواباند / برد ارزشمند پرسپولیس در صدمین شهرآورد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (19)
-
چالش/بازیکن داخل تصویر رو حدس بزن (11)
آخرین اخبار
-
گل اول منچسترسیتی توسط نیکو اورایلی به اورتون
-
در پرسپولیس دیگر جایی برای پیرمردها نیست
-
زلزله مدیریتی در پرسپولیس در راه است
-
سخنگوی قسام: همچنان سرنوشت اسیر اسرائیلی دارای تابعیت آمریکایی نامعلوم است
-
شهادت یکی از نیروهای امنیتی مازندران حین مأموریت
-
گرانترین بازیکن پرسپولیس از چشم افتاد!
-
استوری کنایه آمیز مجری سابق تلویزیون علیه پرسپولیس؛ فکت رسانهای و کارما
-
آغاز تظاهرات علیه ترامپ از امروز در سراسر آمریکا
-
بازگشت دوباره برای وفاداری؛ ساکت الهامی: فقط یک دیوانه این چالش را قبول میکرد
-
اقدام عجیب پرسپولیس در خصوص سیدجلال حسینی
-
رحمان و رحیم پایتخت : فردای بعد از یکی از سکانسها مردم ما را با دست در خیابان نشان میدادند
-
گل سوم بارسلونا به سلتاویگو توسط رافینیا
-
آزمون و عزتاللهی آماده بالا بردن جام
-
گل دوم بارسلونا به سلتاویگو توسط اولمو
-
گل سوم سلتاویگو به بارسلونا توسط بورخا ایگلسیاس
سایر اخبار مرتبط
نظرات
ثبت نظر
مهمترین اخبار
پیشبینی مسیر پرچالش بازار نفت در سال ۲۰۲۵
شنبه 31 فروردین 1404 - 19:15:00
ادامه روند ریزش قیمت طلا و ارز؛ دلار به کانال 84 هزارتومان بازگشت
شنبه 31 فروردین 1404 - 18:20:09
افزایش ۲۹ درصدی صادرات محصولات کشاورزی
شنبه 31 فروردین 1404 - 17:43:53
حقوق ورودی واردات گوشی تلفن همراه در سال ۱۴۰۴ ابلاغ شد
شنبه 31 فروردین 1404 - 17:41:34
برنامه اقدام ایران در مبارزه با پولشویی ابلاغ شد
شنبه 31 فروردین 1404 - 17:37:33