جمعه 09 اسفند 1404 - 22:26
هوش مصنوعی نمیتواند پاسخ درستی را به پرسشهای «تاریخی» بدهد!
ایسنا/ گروهی از پژوهشگران یک معیار جدید را برای آزمایش سه مدل زبانی بزرگ «چتجیپیتی-۴»(GPT-4) شرکت «اوپنایآی»(OpenAI)، «لاما»(Llama) شرکت «متا»(Meta) و «جمینای»(Gemini) گوگل درباره پرسشهای تاریخی ایجاد کردهاند. این معیار موسوم به «Hist-LLM»، درستی پاسخها را بر اساس بانک اطلاعات تاریخ جهانی «سشات»(Seshat) آزمایش میکند که یک پایگاه داده گسترده از دانش تاریخی است و نام ایزدبانوی خرد مصر باستان را دارد.
به نقل از تک کرانچ، پژوهشگران مؤسسه پژوهشی «Complexity Science Hub» مستقر در اتریش، نتایج این بررسی را ناامیدکننده خواندند. مدل زبانی که بهترین عملکرد را داشت، «GPT-4 Turbo» بود، اما دقت آن فقط حدود ۴۶ درصد تخمین زده شد که خیلی بیشتر از دقت حدس زدن تصادفی نیست.
«ماریا دل ریو چانونا»(Maria del Rio-Chanona)، دانشیار علوم رایانه «کالج دانشگاهی لندن»(UCL) و از پژوهشگران این پروژه گفت: نکته اصلی پژوهش ما این است که اگرچه مدلهای زبانی بزرگ، چشمگیر هستند، اما هنوز عمق لازم را برای درک تاریخ پیشرفته ندارند. آنها برای حقایق اساسی، عالی هستند، اما وقتی صحبت از پژوهشهای تاریخی دقیقتر در سطح دکتری به میان میآید، هنوز به کارآیی لازم نرسیدهاند.
پژوهشگران پرسشهای تاریخ را که مدلهای زبانی بزرگ در پاسخ دادن به آنها اشتباه کرده بودند، در اختیار تک کرانچ گذاشتند. به عنوان مثال، آنها از GPT-4 Turbo پرسیده بودند که آیا «زره فلس» در یک دوره زمانی خاص در مصر باستان وجود داشته است یا خیر و مدل زبانی بزرگ پاسخ مثبت داد. این درحالی بود که زره فلس ۱۵۰۰ سال پس از آن دوره در مصر ظاهر شد.
چرا مدلهای زبانی بزرگ در پاسخ دادن به پرسشهای تاریخی بد عمل میکنند؛ در حالی که میتوانند در پاسخ دادن به پرسشهای بسیار پیچیده در مواردی مانند کدنویسی بسیار خوب باشند؟ چانونا پاسخ داد: احتمالا به این دلیل است که مدلهای زبانی بزرگ تمایل دارند از دادههای تاریخی بسیار برجسته برونیابی کنند و بازیابی دانش تاریخی مبهمتر را دشوار میدانند.
به عنوان مثال، پژوهشگران از GPT-4 پرسیدند که آیا مصر باستان در طول یک دوره تاریخی خاص، ارتش ثابت حرفهای داشته است یا خیر. در حالی که پاسخ صحیح منفی است، GPT-4 به اشتباه پاسخ مثبت داد. این پاسخ احتمالا به این دلیل داده شده که اطلاعات عمومی زیادی درباره سایر امپراتوریهای باستانی مانند ایران مبنی بر داشتن ارتش ثابت وجود دارد.
چانونا گفت: اگر ۱۰۰ بار به شما A و B و ۱ بار C گفته شود و سپس درباره C از شما پرسیده شود، ممکن است A و B را به خاطر بسپارید و سعی داشته باشید از آن استنباط کنید.
پژوهشگران تمایلات دیگری را نیز درباره مدلهای زبانی بزرگ شناسایی کردند؛ از جمله این که مدلهای شرکت اوپنایآی و لاما درباره مناطق خاصی مانند جنوب صحرای آفریقا عملکرد بدتری داشتند. این نشاندهنده سوگیریهای احتمالی در دادههای آموزشی آنهاست.
«پیتر تورچین»(Peter Turchin)، سرپرست این پژوهش گفت: نتایج نشان میدهند که مدلهای زبانی بزرگ هنوز در برخی حوزههای خاص نمیتوانند جایگزین انسان باشند.
با وجود این، پژوهشگران هنوز امیدوارند که مدلهای زبانی بزرگ در آینده بتوانند به مورخان کمک کنند. آنها در حال کار کردن روی اصلاح معیار خود با گنجاندن دادههای بیشتر درباره مناطق کمتر ارائهشده و افزودن پرسشهای پیچیدهتر هستند.
در مقاله این پژوهش آمده است: اگرچه نتایج ما مناطقی را برجسته میکنند که مدلهای زبانی بزرگ به بهبود یافتن در آنها نیاز دارند، اما این نتایج بر پتانسیل این مدلها برای کمک به پژوهشهای تاریخی نیز تأکید میکنند.
پربیننده ترین
-
عکس مسی درآمد؛ آخرین توپ طلا با آرایشگر ویژه!
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
چراغ قوه همه کاره ( پاور بانک، شیشه شکن و ... )
-
هشدار آبفای کشور به مردم؛ هیچ ماموری فعلا برای قرائت کنتور آب مراجعه نمیکند
-
آخرین وضعیت راهها در چهارمین روز از سال جدید؛ محور چالوس از شنبه دوباره بسته میشود
-
جارو شارژی !! دیگه نگران نظافت ماشین نباشید
-
زنده؛ بیرانوند در یک قدمی استقلال
-
"دنا پلاس اتومات" بخریم یا "تارا اتومات؟"/ مقایسه اختصاصی "آخرینخودرو" از دو خودروی پرطرفدار
-
فشار آبرو چند برابر کن ....
-
فرمانده کل قوا: ملت ایران در مقابل جنگ تحمیلی محکم میایستد همانگونه که در مقابل صلح تحمیلی نیز محکم خواهد ایستاد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (16)
-
5 نشانه ضعیف شدن ریه ها و بهترین روش تقویت آن چیست؟
-
لندکروزر یا ۲۰۶؟ / مقایسه جالب "آخرینخودرو" به بهانه سخنان جنجالی میرسلیم
-
پایان زودهنگام گنبد آهنین؟ اسرائیل مجبور به جیرهبندی موشکها شد
-
سپ، برترین شرکت در خاورمیانه شد
-
گردونه را بچرخانید، بیتکوین دریافت کنید
-
واکنش عراقچی به تجاوز امروز آمریکا به تأسیسات هستهای فردو، نطنز و اصفهان
آخرین اخبار
-
نیروهای حشد شعبی و ارتش عراق در فرماندهی عملیات نینوا
-
آلودگی هوا در ۱۹ شهر خوزستان؛ ۱۰ شهر در وضعیت قرمز
-
افتتاح فاز نخست نیروگاه خورشیدی شمسالشموس در شهرک تحقیقاتی اصفهان
-
وزیر اقتصاد: بخش خصوصی میتواند خوزستان را در حل معضلات زیستمحیطی یاری کند
-
کلاهبرداری ۵۰ میلیاردی با فروش همزمان زمین و آپارتمان به چند شهروند در نوشهر
-
دستگیری عامل سرقت سنگ قبر از قطعه هنرمندان بهشت زهرا
-
افتتاح پروژه پلیآلومینیوم کلراید در ارومیه
-
سقوط تیبا به دره در محور یاسوج - بابامیدان با ۴ مصدوم
-
پاسخ فرهنگی شهرداری تهران به اهانت به فردوسی
-
باند سارقان موتورسیکلت منهدم شد
-
بحران تختهای بیمارستانی در گلستان؛ بلاتکلیفی ۲۰ ساله برخی پروژههای درمانی
-
نیروگاه ۲۴ مگاواتی سیمان سامان کرمانشاه با حضور وزیر کار افتتاح شد
-
نباید میذاشتی بی بی بره!
-
بوستان روستایی زنان در مازندران افتتاح میشود
-
در پی بیعملی مسئولان گلستان، نماینده فوتسال استان از لیگ برتر انصراف داد!
سایر اخبار مرتبط
نظرات
ثبت نظر
مهمترین اخبار
عارف: بازسازی منازل در تهران و شهرستانها باید سرعت بیشتری بگیرد
پنجشنبه 07 شهریور 1404 - 10:39:18
واگذاری زمین در قالب طرح جوانی جمعیت
پنجشنبه 07 شهریور 1404 - 11:10:00
وزیر نیرو: نیروگاههای خورشیدیِ افتتاحشده امکان انتقال برق به کل کشور را ندارند
پنجشنبه 07 شهریور 1404 - 10:56:00
تسنیم: ۹۰۰ هزار خارجنشین هنوز از فهرست یارانه بگیران حذف نشدهاند
پنجشنبه 07 شهریور 1404 - 10:38:00
تولید روزانه بنزین در مسیر صعود؛ ۱۰۳ میلیون لیتر تا تیرماه
پنجشنبه 07 شهریور 1404 - 10:17:56