سهشنبه 06 اسفند 1404 - 09:59
مدلهای هوش مصنوعی استدلالی جدید «اوپنایآی» بیشتر توهم میزنند
ایسنا/بررسیها حاکی از آن هستند که امکان بروز توهم و تولید محتوای نادرست در مدلهای هوش مصنوعی استدلالی جدید «اوپنایآی» بیشتر است.
مدلهای هوش مصنوعی «o3» و «o4-mini» شرکت «اوپنایآی»(OpenAI) که اخیرا عرضه شدهاند، از بسیاری جهتها پیشرفته هستند. با وجود این، مدلهای جدید هنوز هم به توهم دچار میشوند یا محتوا را از خود میسازند. در واقع، آنها بیش از چندین مدل قدیمی اوپنایآی توهم دارند.
به نقل از تک کرانچ، توهم در حوزه هوش مصنوعی به تولید محتوای نادرست یا غیر منطقی توسط یک مدل گفته میشود. ثابت شده است که توهمات یکی از بزرگترین و دشوارترین مشکلات برای حل کردن در حوزه هوش مصنوعی هستند و حتی بر سیستمهای با بهترین عملکرد امروزی نیز تأثیر میگذارند. همه مدلهای جدید معمولا کمی در بخش توهم بهبود یافتهاند و کمتر از مدل پیشین خود توهم ایجاد میکنند، اما به نظر نمیرسد که این در مورد o3 و o4-mini صدق کند.
آزمایشهای داخلی شرکت اوپنایآی نشان میدهند o3 و o4-mini که «مدلهای استدلالی» هستند، بیشتر از مدلهای استدلالی پیشین شرکت شامل «o۱»، «o۱-mini» و «o۳-mini» و همچنین، مدلهای سنتی و غیر استدلالی آن مانند «GPT-4o» دچار توهم میشوند.
موضوع نگرانکنندهتر این است که سازنده «چتجیپیتی»(ChatGPT) واقعا نمیداند چرا این اتفاق رخ میدهد. اوپنایآی در گزارش فنی خود برای o3 و o4-mini نوشت: هنوز به بررسیهای بیشتری نیاز است تا بفهمیم چرا توهمات با افزایش مدلهای استدلالی بدتر میشوند. مدلهای O3 و o4-mini در برخی زمینهها از جمله وظایف مربوط به کدنویسی و ریاضی عملکرد بهتری دارند، اما از آنجا که آنها در کل ادعاهای بیشتری دارند، اغلب به سمت ادعاهای دقیقتر و ادعاهای نادرست و توهم بیشتر میروند.
اوپنایآی دریافت o3 در پاسخ به ۳۳ درصد از پرسشها پیرامون «PersonQA» که معیار داخلی شرکت برای سنجش دقت دانش یک مدل درباره افراد است، توهم ایجاد میکند. این تقریبا دو برابر میزان توهم مدلهای استدلال پیشین اوپنایآی شامل o1 و o3-mini است که به ترتیب به ۱۶ و ۱۴.۸ درصد پرسشها پاسخ دادهاند. مدل O4-mini حتی درباره PersonQA بدتر عمل کرد و ۴۸ درصد مواقع توهمزدگی داشت.
بررسی انجامشده در آزمایشگاه پژوهشی غیرانتفاعی هوش مصنوعی «Transluce» نیز شواهدی یافت مبنی بر این که o3 تمایل دارد اقدامات صورتگرفته در فرآیند رسیدن به پاسخ را جبران کند.
«نیل چاودری»(Neil Chowdhury)، پژوهشگر Transluce و کارمند سابق اوپنایآی در ایمیلی به تک کرانچ نوشت: فرضیه ما این است که نوع یادگیری تقویتیافته مورد استفاده برای مدلهای سری o ممکن است مشکلات کاهشیافته پس از آموزش را تقویت کند.
«سارا شوتمن»(Sarah Schwettmann) یکی از بنیانگذاران Transluce اضافه کرد که میزان توهم o3 ممکن است آن را کمتر از آنچه میتوانست باشد، سودمند کند.
«کیان کتانفروش»، استاد کمکی «دانشگاه استنفورد» و مدیرعامل استارتآپ ارتقاء مهارت «Workera» به تک کرانچ گفت که گروه او در حال حاضر در حال آزمایش o3 در گردش کار کدگذاری خود هستند و دریافتهاند که آن را یک گام جلوتر از رقبا قرار دادهاند. با وجود این، کتانفروش معتقد است که o3 به توهم تمایل دارد. این مدل، پیوندهایی را ارائه میدهد که وقتی روی آنها کلیک شود، کار نمیکند.
توهمات ممکن است به مدلها کمک کنند تا به ایدههای جالبی برسند و در تفکر خود خلاق باشند، اما فروش برخی از مدلها را در بازارهایی که دقت در آنها مهم است، به کار سختی تبدیل میکنند. به عنوان مثال، یک شرکت حقوقی احتمالا از مدلی که خطاهای واقعی زیادی را در قراردادهای مشتری وارد میکند، راضی نخواهد بود.
یکی از روشهای امیدوارکننده برای افزایش دقت مدلها، دادن قابلیتهای جستوجوی وب به آنهاست. مدل GPT-4o با جستوجوی وب، دقت ۹۰ را در SimpleQA به دست میآورد که یکی دیگر از معیارهای دقت اوپنایآی است. به طور بالقوه، جستوجو میتواند نرخ توهم مدلهای استدلالی را نیز بهبود ببخشد.
اگر گسترش مدلهای استدلالی واقعا به تشدید توهم ادامه دهد، جستوجو برای یافتن راه حل را بیش از پیش ضروری میکند. «نیکو فلیکس»(Niko Felix)، سخنگوی اوپنایآی در یک ایمیل به تک کرانچ نوشت: رسیدگی به توهمات در همه مدلهای ما یک حوزه تحقیقاتی مداوم است و ما پیوسته برای بهبود دقت و قابلیت اطمینان آنها تلاش میکنیم.
پربیننده ترین
-
عکس مسی درآمد؛ آخرین توپ طلا با آرایشگر ویژه!
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
چراغ قوه همه کاره ( پاور بانک، شیشه شکن و ... )
-
هشدار آبفای کشور به مردم؛ هیچ ماموری فعلا برای قرائت کنتور آب مراجعه نمیکند
-
آخرین وضعیت راهها در چهارمین روز از سال جدید؛ محور چالوس از شنبه دوباره بسته میشود
-
جارو شارژی !! دیگه نگران نظافت ماشین نباشید
-
زنده؛ بیرانوند در یک قدمی استقلال
-
"دنا پلاس اتومات" بخریم یا "تارا اتومات؟"/ مقایسه اختصاصی "آخرینخودرو" از دو خودروی پرطرفدار
-
فشار آبرو چند برابر کن ....
-
فرمانده کل قوا: ملت ایران در مقابل جنگ تحمیلی محکم میایستد همانگونه که در مقابل صلح تحمیلی نیز محکم خواهد ایستاد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (16)
-
5 نشانه ضعیف شدن ریه ها و بهترین روش تقویت آن چیست؟
-
لندکروزر یا ۲۰۶؟ / مقایسه جالب "آخرینخودرو" به بهانه سخنان جنجالی میرسلیم
-
پایان زودهنگام گنبد آهنین؟ اسرائیل مجبور به جیرهبندی موشکها شد
-
سپ، برترین شرکت در خاورمیانه شد
-
گردونه را بچرخانید، بیتکوین دریافت کنید
-
واکنش عراقچی به تجاوز امروز آمریکا به تأسیسات هستهای فردو، نطنز و اصفهان
آخرین اخبار
-
مکلارن تسلیم شد، ابرشاسیبلند هیبرید برای رقابت با فراری ساخته میشود
-
حریق خودروی پراید در الهیه جنوبی بندرعباس
-
10 رینگ معروف در صنعت خودرو؛ کدام یک انتخاب شماست؟
-
جریمه قاچاقچی حوله تنظیف در اندیمشک
-
معاون رئیسجمهور: بهرهبرداری ناپایدار تهدیدی برای محیطزیست چهارمحال وبختیاری است
-
فراری پوروسانگوئه G ادیشن کیوانی، دایناسور زرد ۱.۵ میلیون دلاری!
-
دیدار رئیس پارلمان عراق با کاردار آمریکا بر سر سرنوشت پایگاه عینالاسد
-
شوهرم در رسیدگی به بچهها ابدا کمک نمیکند
-
رونمایی از لوگو هیئت فوتبال استان تهران با حضور مهدی تاج
-
استانداری مازندران به پنل خورشیدی مجهز شد
-
رئیس کل گمرک: طلای وارداتی بابک زنجانی قاچاق نبوده است
-
تمدید کنسرت «ایرانم» علیرضا قربانی
-
بهروز سلطانی: وقتی از برخی ایجنت ها بازیکنی جذب پرسپولیس نمی شود
-
بهروز سلطانی: وحید هاشمیان مدیریتی در سطح علی پروین دارد، اگر به حاشیه نرود صد درصد موفق می شود
-
حضور مهدی تاج در مجمع سالیانه هیئت فوتبال تهران
سایر اخبار مرتبط
نظرات
ثبت نظر
مهمترین اخبار
رئیس کل گمرک: طلای وارداتی بابک زنجانی قاچاق نبوده است
سهشنبه 05 شهریور 1404 - 12:06:40
۸۶ درصد از مطالبات گندمکاران تسویه شد
سهشنبه 05 شهریور 1404 - 12:00:54
ورود گروه صنعتی زر به باشگاه کلان پروژههای انرژی خورشیدی
سهشنبه 05 شهریور 1404 - 11:59:40
افزایش مجدد قیمتها در بازار طلا و سکه؛ دلار به کانال 96 هزار تومان رسید
سهشنبه 05 شهریور 1404 - 11:38:45
واردات هفت کشتی بنزین در جنگ ۱۲ روزه به کشور
سهشنبه 05 شهریور 1404 - 11:27:00