بر اساس مطالعهای جدید، عرصه رقابت چتباتها تغییر کرده است. این بررسی نشان میدهد ۷ چت بات هوش مصنوعی در ارزیابیهای تازه، عملکردی متفاوت و برتر از رقبای محبوب ارائه دادهاند.
چت جی پی تی به عنوان نامی مترادف با هوش مصنوعی و پرکاربردترین چتبات در جهان شناخته میشود. اما اکنون، معیارهای نوین ارزیابی فراتر از تعداد کاربران، به بررسی کیفیت تعامل میپردازند.
این رویکرد جدید بر تجربه کاربری، درک طبیعی و پاسخهای سازگار با نیازهای واقعی تمرکز دارد. هدف از این مطالعات، شناسایی مدلهایی است که در تعاملات روزمره، تجربه کاربری بهتری ارائه میدهند.
معیاری نوین برای سنجش چت باتهای هوش مصنوعی
ChatGPT-3.5 در نوامبر ۲۰۲۲ راهاندازی شد و هوش مصنوعی مولد را به جریان اصلی وارد کرد. با این حال، مطالعه اخیر شرکت بریتانیایی Prolific با معیار «Humaine» نشان داد که چتجیپیتی فقط در جایگاه هشتم قرار گرفته است.
این مطالعه برخلاف معیارهای فنی رایج، بر ارزشهایی مانند درک، سیالیت تعامل، پاسخهای واضح و صداقت تمرکز دارد که کاربران برای یک چت بات هوش مصنوعی ارزشمند میدانند.
- شرکت OpenAI نسخه رایگان ChatGPT را برای معلمان منتشر کرد
- چت گروهی ChatGPT برای همه فعال شد؛ همکاری تیمی با هوش مصنوعی وارد فاز جدیدی میشود
- ۱۰ نکته آسان برای کسب نتایج بهتر از ChatGPT
ارزیابیها در مطالعه Humaine بهصورت مقایسهای و رودررو بین دو مدل ناشناس توسط شرکتکنندگانی انجام شد که مکالمات چندمرحلهای درباره موضوعات مورد علاقه خود داشتند. این روش به کاربران اجازه میدهد تا عملکرد را با دقت بیشتری قضاوت کنند. نتایج این مطالعه در صفحه Hugging Face شرکت Prolific قابل دسترسی است و بهطور مداوم بهروزرسانی میشود.
۷ چت بات هوش مصنوعی برتر از دیدگاه کاربران
در صدر ردهبندی مطالعه Humaine، چندین چت بات هوش مصنوعی توانستند ChatGPT را پشت سر بگذارند. این مدلها نه تنها در وظایف اصلی بهتر عمل کردند، بلکه در ابعاد انسانی تعامل، مانند سبک ارتباط و سازگاری، امتیاز بالاتری کسب کردند:
- گوگل Gemini 2.5 Pro (Google)
- DeepSeek v3 (DeepSeek)
- Magistral Medium (Mistral AI)
- Grok 4 (xAI)
- Grok 3 (xAI)
- گوگل Gemini 2.5 Flash (Google)
- DeepSeek R1 (DeepSeek)
گوگل Gemini 2.5 Pro؛ پیشتاز میدان
بر اساس بازخورد شرکتکنندگان، گوگل جیمنای ۲.۵ پرو یا Google Gemini 2.5 Pro بهترین چت بات هوش مصنوعی شناخته شد و در چندین معیار و گروه جمعیتی برتری چشمگیری داشت. علاوه بر رتبه اول، مدلهای دیگر گوگل جیمنای ۲.۵ فلش و جیمنای ۲.۰ فلش نیز به ترتیب در ردههای ششم و دهم قرار گرفتند.
این مدل که در مارس ۲۰۲۵ معرفی شد، برای مقابله با مسائل پیچیده طراحی شده است. جیمنای ۲.۵ پرو علاوه بر مطالعه Humaine، در پلتفرم LMArena و آزمونهای استدلال تطبیقی نیز پیشتاز است.
DeepSeek؛ نماینده قدرتمند چین
دو مدل از شرکت چینی دیپ سیک در مطالعه Humaine حضور داشتند که هر دو عملکرد خوبی از خود نشان دادند. DeepSeek v3 در رتبه دوم و DeepSeek R1 در رتبه هفتم قرار گرفت. این مدلها به دلیل هزینه ساخت کمتر و عملکرد قابل قبولشان توجه زیادی را به خود جلب کردهاند. دیپسیک ویتری (DeepSeek v3) در تمامی معیارها عملکرد خوبی داشت و در بخش «سبک ارتباط و ارائه» رتبه اول را کسب کرد.
Mistral AI؛ شگفتی فرانسوی
شرکت فرانسوی میسترال ایآی یا Mistral AI با مدل مجیسترال مدیوم (Magistral Medium) خود، علیرغم شهرت کمتر نسبت به سایر رقبا، به رتبه سوم دست یافت. این مدل در ژوئن ۲۰۲۵ عرضه شد و پیشرفت چشمگیری در کیفیت نسبت به نسخه قبلی خود نشان داد. مجیسترال در سازگاری و سبک ارتباطی عالی عمل کرد، اما در معیار «اعتماد، اخلاق و ایمنی» امتیاز کمتری گرفت و در جایگاه دوازدهم قرار گرفت.
- مشکل نگرانکننده ChatGPT مشخص شد: بلد نیست «نه» بگوید
- آپدیت بزرگ GPT-5.1 منتشر شد؛ گرم و صمیمانه و باهوش تر از همیشه
- آپدیت بزرگ بعدی ChatGPT در راه است؛ با ۵ ویژگی احتمالی GPT-5 آشنا شوید
Grok xAI؛ پیشرفت با وجود حواشی
دو مدل از گراک ایکس ایآی یا Grok xAI نیز در این مطالعه ارزیابی شدند؛ Grok v4 در رتبه چهارم و Grok v3 در رتبه پنجم جای گرفتند. با وجود حواشی گذشته، گراک بهویژه در معیارهای «اعتماد، اخلاق و ایمنی» عملکرد بسیار خوبی از خود نشان داد. تغییراتی در نسخههای جدیدتر باعث شده تا ویژگیهای بحثبرانگیز آن تعدیل شوند. این چت بات شاهد رشد سالانه چشمگیری در تعداد بازدیدکنندگان و تعاملات کاربران بوده است.
چرا ChatGPT این بار در رتبه هشتم قرار گرفت؟
عملکرد نسبتاً ضعیف چت جی پی تی یا ChatGPT در جایگاه هشتم این مطالعه قابل توجه است، زیرا این مدل با حدود ۸۰۰ میلیون کاربر فعال در هفته، همچنان بازار چتباتهای هوش مصنوعی را در دست دارد. دلیل اصلی این تفاوت، تمرکز مطالعه Humaine بر ابعاد انسانی تعامل است؛ جایی که معیارهایی مانند لحن، وضوح و سازگاری با نیازهای کاربر، اهمیت بیشتری از صرفاً پاسخهای صحیح فنی پیدا میکنند.
در حالی که ChatGPT در تستهای مهارتمحور مانند ریاضیات یا امتحانات تخصصی عملکرد عالی دارد، مطالعه Humaine نشان میدهد که در تعاملات روزمره و ذهنی، مدلهای دیگر ممکن است تجربه کاربری بهتری ارائه دهند.
با این وجود، OpenAI میتواند با این واقعیت دلخوش باشد که نام ChatGPT با مفهوم هوش مصنوعی عجین شده و تعداد کاربران آن به مراتب بیشتر از سایر رقبا است. همچنین، چت جی پی تی در یکی از جوایز Model Awards مطالعه Humaine، جایزه پویاترین (Most Proactive) را برای ابتکار عمل و پیشنهاد اقدامات بعدی از آن خود کرد، هرچند که جیمنای چهار جایزه دیگر را به دست آورد.






0 نظرات