دوشنبه 01 بهمن 1403 - 22:28
هوش مصنوعی نمیتواند پاسخ درستی را به پرسشهای «تاریخی» بدهد!
ایسنا/ گروهی از پژوهشگران یک معیار جدید را برای آزمایش سه مدل زبانی بزرگ «چتجیپیتی-۴»(GPT-4) شرکت «اوپنایآی»(OpenAI)، «لاما»(Llama) شرکت «متا»(Meta) و «جمینای»(Gemini) گوگل درباره پرسشهای تاریخی ایجاد کردهاند. این معیار موسوم به «Hist-LLM»، درستی پاسخها را بر اساس بانک اطلاعات تاریخ جهانی «سشات»(Seshat) آزمایش میکند که یک پایگاه داده گسترده از دانش تاریخی است و نام ایزدبانوی خرد مصر باستان را دارد.
به نقل از تک کرانچ، پژوهشگران مؤسسه پژوهشی «Complexity Science Hub» مستقر در اتریش، نتایج این بررسی را ناامیدکننده خواندند. مدل زبانی که بهترین عملکرد را داشت، «GPT-4 Turbo» بود، اما دقت آن فقط حدود ۴۶ درصد تخمین زده شد که خیلی بیشتر از دقت حدس زدن تصادفی نیست.
«ماریا دل ریو چانونا»(Maria del Rio-Chanona)، دانشیار علوم رایانه «کالج دانشگاهی لندن»(UCL) و از پژوهشگران این پروژه گفت: نکته اصلی پژوهش ما این است که اگرچه مدلهای زبانی بزرگ، چشمگیر هستند، اما هنوز عمق لازم را برای درک تاریخ پیشرفته ندارند. آنها برای حقایق اساسی، عالی هستند، اما وقتی صحبت از پژوهشهای تاریخی دقیقتر در سطح دکتری به میان میآید، هنوز به کارآیی لازم نرسیدهاند.
پژوهشگران پرسشهای تاریخ را که مدلهای زبانی بزرگ در پاسخ دادن به آنها اشتباه کرده بودند، در اختیار تک کرانچ گذاشتند. به عنوان مثال، آنها از GPT-4 Turbo پرسیده بودند که آیا «زره فلس» در یک دوره زمانی خاص در مصر باستان وجود داشته است یا خیر و مدل زبانی بزرگ پاسخ مثبت داد. این درحالی بود که زره فلس ۱۵۰۰ سال پس از آن دوره در مصر ظاهر شد.
چرا مدلهای زبانی بزرگ در پاسخ دادن به پرسشهای تاریخی بد عمل میکنند؛ در حالی که میتوانند در پاسخ دادن به پرسشهای بسیار پیچیده در مواردی مانند کدنویسی بسیار خوب باشند؟ چانونا پاسخ داد: احتمالا به این دلیل است که مدلهای زبانی بزرگ تمایل دارند از دادههای تاریخی بسیار برجسته برونیابی کنند و بازیابی دانش تاریخی مبهمتر را دشوار میدانند.
به عنوان مثال، پژوهشگران از GPT-4 پرسیدند که آیا مصر باستان در طول یک دوره تاریخی خاص، ارتش ثابت حرفهای داشته است یا خیر. در حالی که پاسخ صحیح منفی است، GPT-4 به اشتباه پاسخ مثبت داد. این پاسخ احتمالا به این دلیل داده شده که اطلاعات عمومی زیادی درباره سایر امپراتوریهای باستانی مانند ایران مبنی بر داشتن ارتش ثابت وجود دارد.
چانونا گفت: اگر ۱۰۰ بار به شما A و B و ۱ بار C گفته شود و سپس درباره C از شما پرسیده شود، ممکن است A و B را به خاطر بسپارید و سعی داشته باشید از آن استنباط کنید.
پژوهشگران تمایلات دیگری را نیز درباره مدلهای زبانی بزرگ شناسایی کردند؛ از جمله این که مدلهای شرکت اوپنایآی و لاما درباره مناطق خاصی مانند جنوب صحرای آفریقا عملکرد بدتری داشتند. این نشاندهنده سوگیریهای احتمالی در دادههای آموزشی آنهاست.
«پیتر تورچین»(Peter Turchin)، سرپرست این پژوهش گفت: نتایج نشان میدهند که مدلهای زبانی بزرگ هنوز در برخی حوزههای خاص نمیتوانند جایگزین انسان باشند.
با وجود این، پژوهشگران هنوز امیدوارند که مدلهای زبانی بزرگ در آینده بتوانند به مورخان کمک کنند. آنها در حال کار کردن روی اصلاح معیار خود با گنجاندن دادههای بیشتر درباره مناطق کمتر ارائهشده و افزودن پرسشهای پیچیدهتر هستند.
در مقاله این پژوهش آمده است: اگرچه نتایج ما مناطقی را برجسته میکنند که مدلهای زبانی بزرگ به بهبود یافتن در آنها نیاز دارند، اما این نتایج بر پتانسیل این مدلها برای کمک به پژوهشهای تاریخی نیز تأکید میکنند.
پربیننده ترین
-
عکس مسی درآمد؛ آخرین توپ طلا با آرایشگر ویژه!
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
10 جایزه 5 میلیون تومانی برای کاربران آخرین خبر (مهلت شرکت در مسابقه تا 9 آذر تمدید شد.)
-
آخرین وضعیت راهها در چهارمین روز از سال جدید؛ محور چالوس از شنبه دوباره بسته میشود
-
زنده؛ بیرانوند در یک قدمی استقلال
-
"دنا پلاس اتومات" بخریم یا "تارا اتومات؟"/ مقایسه اختصاصی "آخرینخودرو" از دو خودروی پرطرفدار
-
چالش/ بازیکن داخل تصویر رو حدس بزن (16)
-
5 نشانه ضعیف شدن ریه ها و بهترین روش تقویت آن چیست؟
-
لندکروزر یا ۲۰۶؟ / مقایسه جالب "آخرینخودرو" به بهانه سخنان جنجالی میرسلیم
-
سپ، برترین شرکت در خاورمیانه شد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (28)
-
ویدیو تست و بررسی فیدلیتی پرایم جدید در آخرین خودرو
-
چالش/ بازیکن داخل تصویر رو حدس بزن (14)
-
لحظه به لحظه با جدال پرسپولیس مقابل النصر
-
چالش/ بازیکن داخل تصویر رو حدس بزن (22)
-
یحیی مچ ساپینتو را خواباند / برد ارزشمند پرسپولیس در صدمین شهرآورد
-
چالش/ بازیکن داخل تصویر رو حدس بزن (19)
-
چالش/بازیکن داخل تصویر رو حدس بزن (11)
آخرین اخبار
-
روش سنتی جالب برای نو کردن ظروف
-
شمسایی: بازی تدارکاتی در حد فاصل تا جام جهانی مهم است نه گذشته
-
خیابانی: من از الفاظ مربوط به نژادپرستی متنفرم
-
۳ ترفند کاربردی برای بهبود حریم خصوصی آیفون
-
فیل جنگل، ستاره جدید بسکتبال!
-
ویژگیهای خارقالعاده «ابابیل ۵»
-
پرواز یک بوقلمون روی بال هواپیما و سفر از کشوری به کشور دیگر
-
حال ناخوش مسجد وکیل شیراز
-
این مارهای عجیب الخلقه پرواز میکنند
-
تکذیب ستاره دورتموند؛ اصلا با کاپیتان دعوا نکردم!
-
بارش برف مدارس برخی شهرهای آذربایجان غربی را سهشنبه غیرحضوری کرد
-
شور و هیجان گزارشگر یوونتوس پس از گلهای این تیم مقابل میلان
-
مدارس ابتدایی آوج غیرحضوری شد
-
سرلشکر باقری: ایران در رزمایش بین المللی دریایی پاکستان شرکت خواهد کرد
-
دلیل سکوت طولانی مدت شمسایی سرمربی تیم ملی فوتسال بعد از جام جهانی
سایر اخبار مرتبط
نظرات
ثبت نظر
مهمترین اخبار
کسری دولت بیش از 115 همت؛ آژیر تورم بلند شد
دوشنبه 01 بهمن 1403 - 22:11:29
پیش بینی قیمت طلا و سکه ۲ بهمن ۱۴۰۳
دوشنبه 01 بهمن 1403 - 22:00:00
ظهور دوباره نااطمینانی در بورس؛ آخرین تحلیل از وضعیت بازار سرمایه
دوشنبه 01 بهمن 1403 - 21:30:00
پیش بینی قیمت دلار ۲ بهمن ۱۴۰۳
دوشنبه 01 بهمن 1403 - 20:40:00
افزایش پیشبینی رشد اقتصاد روسیه در ۲۰۲۵ با وجود تحریمها
دوشنبه 01 بهمن 1403 - 20:04:54