شنبه 31 فروردین 1404 - 17:30
مدلهای هوش مصنوعی استدلالی جدید «اوپنایآی» بیشتر توهم میزنند
ایسنا/بررسیها حاکی از آن هستند که امکان بروز توهم و تولید محتوای نادرست در مدلهای هوش مصنوعی استدلالی جدید «اوپنایآی» بیشتر است.
مدلهای هوش مصنوعی «o3» و «o4-mini» شرکت «اوپنایآی»(OpenAI) که اخیرا عرضه شدهاند، از بسیاری جهتها پیشرفته هستند. با وجود این، مدلهای جدید هنوز هم به توهم دچار میشوند یا محتوا را از خود میسازند. در واقع، آنها بیش از چندین مدل قدیمی اوپنایآی توهم دارند.
به نقل از تک کرانچ، توهم در حوزه هوش مصنوعی به تولید محتوای نادرست یا غیر منطقی توسط یک مدل گفته میشود. ثابت شده است که توهمات یکی از بزرگترین و دشوارترین مشکلات برای حل کردن در حوزه هوش مصنوعی هستند و حتی بر سیستمهای با بهترین عملکرد امروزی نیز تأثیر میگذارند. همه مدلهای جدید معمولا کمی در بخش توهم بهبود یافتهاند و کمتر از مدل پیشین خود توهم ایجاد میکنند، اما به نظر نمیرسد که این در مورد o3 و o4-mini صدق کند.
آزمایشهای داخلی شرکت اوپنایآی نشان میدهند o3 و o4-mini که «مدلهای استدلالی» هستند، بیشتر از مدلهای استدلالی پیشین شرکت شامل «o۱»، «o۱-mini» و «o۳-mini» و همچنین، مدلهای سنتی و غیر استدلالی آن مانند «GPT-4o» دچار توهم میشوند.
موضوع نگرانکنندهتر این است که سازنده «چتجیپیتی»(ChatGPT) واقعا نمیداند چرا این اتفاق رخ میدهد. اوپنایآی در گزارش فنی خود برای o3 و o4-mini نوشت: هنوز به بررسیهای بیشتری نیاز است تا بفهمیم چرا توهمات با افزایش مدلهای استدلالی بدتر میشوند. مدلهای O3 و o4-mini در برخی زمینهها از جمله وظایف مربوط به کدنویسی و ریاضی عملکرد بهتری دارند، اما از آنجا که آنها در کل ادعاهای بیشتری دارند، اغلب به سمت ادعاهای دقیقتر و ادعاهای نادرست و توهم بیشتر میروند.
اوپنایآی دریافت o3 در پاسخ به ۳۳ درصد از پرسشها پیرامون «PersonQA» که معیار داخلی شرکت برای سنجش دقت دانش یک مدل درباره افراد است، توهم ایجاد میکند. این تقریبا دو برابر میزان توهم مدلهای استدلال پیشین اوپنایآی شامل o1 و o3-mini است که به ترتیب به ۱۶ و ۱۴.۸ درصد پرسشها پاسخ دادهاند. مدل O4-mini حتی درباره PersonQA بدتر عمل کرد و ۴۸ درصد مواقع توهمزدگی داشت.
بررسی انجامشده در آزمایشگاه پژوهشی غیرانتفاعی هوش مصنوعی «Transluce» نیز شواهدی یافت مبنی بر این که o3 تمایل دارد اقدامات صورتگرفته در فرآیند رسیدن به پاسخ را جبران کند.
«نیل چاودری»(Neil Chowdhury)، پژوهشگر Transluce و کارمند سابق اوپنایآی در ایمیلی به تک کرانچ نوشت: فرضیه ما این است که نوع یادگیری تقویتیافته مورد استفاده برای مدلهای سری o ممکن است مشکلات کاهشیافته پس از آموزش را تقویت کند.
«سارا شوتمن»(Sarah Schwettmann) یکی از بنیانگذاران Transluce اضافه کرد که میزان توهم o3 ممکن است آن را کمتر از آنچه میتوانست باشد، سودمند کند.
«کیان کتانفروش»، استاد کمکی «دانشگاه استنفورد» و مدیرعامل استارتآپ ارتقاء مهارت «Workera» به تک کرانچ گفت که گروه او در حال حاضر در حال آزمایش o3 در گردش کار کدگذاری خود هستند و دریافتهاند که آن را یک گام جلوتر از رقبا قرار دادهاند. با وجود این، کتانفروش معتقد است که o3 به توهم تمایل دارد. این مدل، پیوندهایی را ارائه میدهد که وقتی روی آنها کلیک شود، کار نمیکند.
توهمات ممکن است به مدلها کمک کنند تا به ایدههای جالبی برسند و در تفکر خود خلاق باشند، اما فروش برخی از مدلها را در بازارهایی که دقت در آنها مهم است، به کار سختی تبدیل میکنند. به عنوان مثال، یک شرکت حقوقی احتمالا از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتری وارد میکند، راضی نخواهد بود.
یکی از روشهای امیدوارکننده برای افزایش دقت مدلها، دادن قابلیتهای جستوجوی وب به آنهاست. مدل GPT-4o با جستوجوی وب، دقت ۹۰ را در SimpleQA به دست میآورد که یکی دیگر از معیارهای دقت اوپنایآی است. به طور بالقوه، جستوجو میتواند نرخ توهم مدلهای استدلالی را نیز بهبود ببخشد.
اگر گسترش مدلهای استدلالی واقعا به تشدید توهم ادامه دهد، جستوجو برای یافتن راه حل را بیش از پیش ضروری میکند. «نیکو فلیکس»(Niko Felix)، سخنگوی اوپنایآی در یک ایمیل به تک کرانچ نوشت: رسیدگی به توهمات در همه مدلهای ما یک حوزه تحقیقاتی مداوم است و ما پیوسته برای بهبود دقت و قابلیت اطمینان آنها تلاش میکنیم.
پربیننده ترین
-
عکس مسی درآمد؛ آخرین توپ طلا با آرایشگر ویژه!
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
آخرین وضعیت راهها در چهارمین روز از سال جدید؛ محور چالوس از شنبه دوباره بسته میشود
-
زنده؛ بیرانوند در یک قدمی استقلال
-
"دنا پلاس اتومات" بخریم یا "تارا اتومات؟"/ مقایسه اختصاصی "آخرینخودرو" از دو خودروی پرطرفدار
-
چالش/ بازیکن داخل تصویر رو حدس بزن (16)
-
5 نشانه ضعیف شدن ریه ها و بهترین روش تقویت آن چیست؟
-
لندکروزر یا ۲۰۶؟ / مقایسه جالب "آخرینخودرو" به بهانه سخنان جنجالی میرسلیم
-
سپ، برترین شرکت در خاورمیانه شد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (28)
-
ویدیو تست و بررسی فیدلیتی پرایم جدید در آخرین خودرو
-
چالش/ بازیکن داخل تصویر رو حدس بزن (14)
-
لحظه به لحظه با جدال پرسپولیس مقابل النصر
-
چالش/ بازیکن داخل تصویر رو حدس بزن (22)
-
یحیی مچ ساپینتو را خواباند / برد ارزشمند پرسپولیس در صدمین شهرآورد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (19)
-
چالش/بازیکن داخل تصویر رو حدس بزن (11)
آخرین اخبار
-
کشف ۱۰۰ کیلو خاک طلا و نقره توسط پلیس راه آهن
-
گل دوم بایرنمونیخ به هایدنهایم توسط لایمر
-
گل اول بایرنمونیخ به هایدنهایم توسط هری کین
-
ایران- روسیه قطعی شد؛ 2 بازی در مهر
-
ریوالدو، اسطوره برزیلی باشگاه بارسلونا 53 ساله شد
-
حماس اعلام کرد جان اسرای صهیونیست در خطر است
-
پرنده ای زیبا در میان شکوفه های بهاری
-
چرا از کمربند بعد از عمل کمر استفاده میشود؟
-
اعترافات تلخ خلبانان اسرائیلی درباره حملات غزه
-
دومین تخمگذاری لاکپشتهای زیتونی در پارک ملی دریایی نایبند
-
جایگاه شادی در فرهنگ ایران باستان و اشعار شاعران ایرانی
-
دایی: پرسپولیس در رختکن قهرمانی را از دست داد!
-
مشاهده رنگی کاملا جدید توسط چشم انسان
-
دیلی بیست اولین اخراجی دولت ترامپ را اعلام کرد
-
مسئولان ارشد لرستان در تقدیر از تیم خیبر
سایر اخبار مرتبط
نظرات
ثبت نظر
مهمترین اخبار
قیمت محصولات ایران خودرو امروز 30 فروردین 1404
شنبه 31 فروردین 1404 - 16:51:32
انتقال مستقیم پول از باکس پسانداز / یک قابلیت جدید و کاربردی در اپلیکیشن بلو
شنبه 31 فروردین 1404 - 16:41:31
آشنایی با مشکلات رایج گیربکس ماشین
شنبه 31 فروردین 1404 - 16:33:16
معامله ۵۴۶ هزارگواهی سپرده زعفران در بورس کالا
شنبه 31 فروردین 1404 - 16:05:38
سامانه خودنویس ابزاری برای مقابله با سوداگری در حوزه مسکن
شنبه 31 فروردین 1404 - 15:40:32