موضوعات ‌مرتبط: فناوری علم و فناوری

a/188656 :کد

چت‌ جی‌پی‌تی بهتر است یا جمنای؟

چت‌ جی‌پی‌تی بهتر است یا جمنای؟

  جمعه ۱۴ آذر ۱۴۰۴ — ۱۰:۰۹
تعداد بازدید : ۹   
 تحلیل ایران -چت‌ جی‌پی‌تی بهتر است یا جمنای؟

چگونه بفهمیم از بین ربات‌های گفتگو کدامشان عملکرد بهتری دارد و پاسخ قوی‌تری به سوالات ما می‌دهد؟

به گزارش تحلیل ایران وقتی صحبت از ربات‌های گفتگوی مختلف می‌شود معمولاً همه دوست دارند بدانند «کدام‌ یک قوی‌تر است؟». اما پاسخ دادن به این سؤال به هیچ‌وجه ساده نیست. این مدل‌ها حجم عظیمی از اطلاعات را پردازش می‌کنند، توانایی استدلال دارند، متن تولید می‌کنند، گفتگو انجام می‌دهند، کدنویسی می‌کنند و در ده‌ها حوزه دیگر فعال هستند. برای همین نمی‌شود با یک معیار ساده گفت کدام‌یک بهتر است. 

 

اینجاست که «سنجه» یا بنچمارک (Benchmark) وارد می‌شود؛ یعنی مجموعه‌ای از آزمون‌ها، معیارها و روش‌های استاندارد که پژوهشگران از آن‌ها برای مقایسه مدل‌های زبانی استفاده می‌کنند. در این به این موضوع می‌پردازیم که این سنجه‌ها چه هستند، چطور کار می‌کنند و چرا وجودشان برای پیشرفت هوش مصنوعی ضروری است.

 

چرا اصلاً باید مدل‌های زبانی را با سنجه مورد بررسی قرار دهیم؟

در نگاه اول شاید این سؤال پیش بیاید که «چرا نمی‌گذاریم کاربران خودشان تشخیص بدهند کدام ربات گفتگو بهتر است؟». اما مسئله این است که تجربه کاربران معمولاً بر اساس استفاده روزمره است و نمی‌تواند معیار علمی و دقیق باشد. مدل‌های زبانی طیف وسیعی از توانایی‌ها دارند: ممکن است مدلی در گفتگوی عمومی خوب باشد اما در مسائل ریاضی ضعیف عمل کند؛ یا برعکس، در نوشتن کد فوق‌العاده باشد اما در مکالمه پر از خطا شود. بنابراین برای اینکه بتوانیم یک «تصویر دقیق و قابل مقایسه» از عملکرد آن‌ها به دست بیاوریم، نیازمند آزمون‌هایی استاندارد هستیم که تحت شرایط مشخص، توانایی آن‌ها را در حوزه‌های مختلف بسنجند.

سنجه‌ها درواقع همان خط‌کش یا متر اندازه‌گیری هوش مصنوعی هستند. بدون این ابزار، توسعه‌دهندگان نمی‌دانند مدلشان چقدر خوب است، کاربران نمی‌توانند مدل‌ها را با هم مقایسه کنند و پژوهشگران هم نمی‌توانند پیشرفت واقعی فناوری را بررسی کنند. سنجه‌ها سازوکاری فراهم می‌کنند تا بتوانیم بفهمیم یک مدل چه می‌داند، چگونه استدلال می‌کند و آیا می‌توان به خروجی‌هایش اعتماد کرد یا نه.

آزمون‌هایی برای محک هوش واقعی

یکی از گسترده‌ترین گروه‌های سنجه‌ها، آزمون‌هایی هستند که میزان دانش عمومی و قدرت استدلال مدل‌های زبانی را اندازه می‌گیرند. معروف‌ترین آن‌ها MMLU است. در این سنجه،‌مجموعه‌ای بسیار گسترده از پرسش‌های چندگزینه‌ای گردآوری شده که هدفشان سنجش «دانش واقعی» یک مدل زبانی در کنار «قدرت استدلال» آن در حوزه‌های مختلف است. این پرسش‌ها از ده‌ها رشته دانشگاهی و تخصصی انتخاب شده‌اند؛ از تاریخ و علوم اجتماعی گرفته تا زیست‌پزشکی، ریاضیات، روان‌شناسی، اقتصاد، حقوق و حتی موضوعات تخصصی مهندسی.

هر سؤال معمولاً طوری طراحی شده که مدل نتواند صرفاً با الگوهای سطحی زبانی پاسخ درست را حدس بزند؛ بلکه باید مفهوم را بفهمد، قیاس کند و میان گزینه‌ها بهترین را انتخاب کند. روند کار هم ساده است: سؤال نمایش داده می‌شود، مدل یک گزینه را انتخاب می‌کند، و سپس پاسخ آن با کلیدهای معتبر و مستند مقایسه می‌شود. اگر یک مدل در مجموعه‌ای به این اندازه متنوع و دقیق عملکرد خوبی داشته باشد، معنایش این است که توانسته هم دامنه گسترده‌ای از دانش را پوشش دهد و هم در تحلیل مفهومی و استدلال در حوزه‌های متفاوت توانایی قابل اتکایی از خود نشان دهد.

در کنار آن سنجه BIG-bench قرار دارد که استانداردی جامع‌تر و گسترده‌تر است.در این سنجه مجموعه‌ای بسیار بزرگ از وظایف قرار گرفته که هرکدام بخشی از توانایی‌های یک مدل زبانی را می‌سنجند. این وظایف از پرسش‌های ساده عمومی تا چالش‌های پیچیده‌تر گسترده شده‌اند. برای نمونه، برخی از فعالیت‌ها شامل درک مفاهیم پایه علمی، تحلیل جملات مبهم، تشخیص طنز، پاسخ‌دادن به ضرب‌المثل‌های فرهنگی، یا انجام استدلال‌های زنجیره‌ای است. ایده اصلی این سنجه این است که طیف وسیعی از «توانایی‌های شبیه انسان» مورد ارزیابی قرار گیرد؛ توانایی‌هایی که مدل‌ها در آموزش معمول خود کمتر با آن‌ها مواجه می‌شوند اگر مدل بتواند طیف متنوعی از این وظایف را به‌درستی انجام دهد، نشان می‌دهد که نه‌تنها دانش عمومی گسترده دارد، بلکه درک متنی و انعطاف ذهنی قابل‌قبولی هم دارد.

در نسخه سخت‌تر آن، BBH یا BIG-Bench Hard، تمرکز روی چالش‌هایی است که حتی پاسخ‌دادن به آن‌ها برای انسان هم ساده نیست. وظایف این سنجه معمولاً شامل استدلال چندمرحله‌ای، تحلیل الگوهای پیچیده، یا حل مسئله‌هایی است که نیاز به «درک عمیق‌تر» نسبت به روابط مفهومی دارند. مثلاً در برخی فعالیت‌ها، مدل باید چند گزاره را کنار هم بگذارد و نتیجه‌ای منطقی استخراج کند، یا از روی تعدادی سرنخ متنی، یک استنباط غیرمستقیم انجام دهد. این سنجه در عمل نشان می‌دهد که آیا مدل فقط در حد بازتولید داده‌های آموزش‌دیده رفتار می‌کند یا واقعاً می‌تواند مسئله‌های تازه و ناشناخته را نیز درک و تحلیل کند.

سنجه‌ای که فقط «درستی پاسخ» را نمی‌سنجد

مدل‌های زبانی فقط باهوش بودن سنجیده نمی‌شوند؛ مهم است که پاسخ‌هایشان ایمن، بی‌طرف، سرعت‌مند و قابل اعتماد باشد. درست به همین دلیل پروژه‌ای مهم به نام HELM (Holistic Evaluation of Language Models) به معنای «ارزیابی کل‌گریانه از مدل‌‎های زبانی» توسط مرکز پژوهشی استنفورد ایجاد شد. این سنجه برخلاف بسیاری از آزمون‌های سنتی فقط یک نمره نمی‌دهد، بلکه کیفیت مدل را از جهات مختلف بررسی می‌کند.

سنجه HELM به جنبه‌هایی توجه می‌کند که در دنیای امروز اهمیت زیادی دارد. مثلاً اینکه آیا مدل محتوای مضر، توهین‌آمیز یا غیرقانونی تولید می‌کند، چقدر احتمال دارد اطلاعات غلط بسازد، سرعت تولید متنش چطور است، هزینه پردازشی آن چقدر است و آیا رفتار مدل قابل تکرار و شفاف است یا نه. نگاه جامع این نسجه باعث شده بسیاری از آزمایشگاه‌ها و شرکت‌های فناوری از آن برای مقایسه مدل‌های جدید استفاده کنند.

سنجه‌های مخصوص کدنویسی

توانایی کدنویسی یکی از مهم‌ترین مهارت‌های چت‌بات‌های امروزی است و برای ارزیابی این مهارت سنجه‌های مخصوص وجود دارد. مهم‌ترین آن‌ها HumanEval است. در این سنجه، یک مسئله برنامه‌نویسی همراه با چند تست به مدل داده می‌شود. مدل باید کدی تولید کند که بتواند همه تست‌ها را با موفقیت پشت سر بگذارد.

یک نکته مهم در این سنجه معیار pass@k است. توضیح ساده‌اش این است: «اگر مدل چند بار برای یک مسئله تلاش کند، چند بار توانسته جواب درست تولید کند؟». این معیار کمک می‌کند مدل‌هایی که چند نسخه از یک کد تولید می‌کنند، دقیق‌تر ارزیابی شوند. HumanEval یکی از معتبرترین سنجه‌ها در دنیای برنامه‌نویسی ماشینی است و شرکت‌هایی مثل اپن‌اِی‌آی هم برای ارزیابی مدل‌هایشان از آن استفاده می‌کنند.

سنجش توانایی گفتگوی ربات‌ها

ارزیابی کیفیت گفتگو، یکی از سخت‌ترین بخش‌های سنجش مدل‌های زبانی است. برخلاف آزمون‌های چندگزینه‌ای که همیشه یک «پاسخ درست» دارند، در گفتگو ممکن است هزاران پاسخ مختلف وجود داشته باشد که همه از نظر انسانی قابل قبول‌اند. بنابراین باید از سنجه‌هایی استفاده شود که واقعیت تعامل انسانی را شبیه‌سازی کنند.

یکی از این سنجه‌ها MT-Bench است که مکالمه‌های چندمرحله‌ای بین کاربر و مدل را بررسی می‌کند و می‌سنجد که مدل چقدر می‌تواند پاسخ‌های منطقی، منسجم و طبیعی بدهد. هدف آن شبیه‌سازی گفتگوهای واقعی و سنجش توانایی مدل در حفظ جریان مکالمه است.

 

 روش دیگر ChatEval است که ترکیبی از ارزیابی انسانی و خودکار است و کمک می‌کند کیفیت پاسخ‌ها به‌طور دقیق‌تر بررسی شود. مدل‌ها هم از نظر محتوا و هم از نظر سبک گفتار مورد سنجش قرار می‌گیرند.

 

 در سنجه ACUTE-Eval نیز انسان‌ها دو مکالمه تولید شده توسط مدل را با هم مقایسه می‌کنند و تشخیص می‌دهند کدام یک بهتر است. این روش به جای دادن نمره عددی، کیفیت واقعی گفتگو را شبیه‌سازی و ارزیابی می‌کند. این روش شبیه مقایسه دو متن در شرایط واقعی است و یکی از دقیق‌ترین شیوه‌ها برای سنجش کیفیت گفتگو به شمار می‌رود.

در کنار این‌ها مجموعه‌های تخصصی مانند ConvAI، MultiWOZ و DSTC وجود دارند که برای مکالمات کاربردی طراحی شده‌اند؛ مثلاً گفتگویی که هدفش رزرو هتل، خرید بلیت یا سفارش غذاست. این سنجه‌ها بررسی می‌کنند آیا مدل می‌تواند اطلاعات را در طول گفتگو نگه دارد، هدف کاربر را درست بفهمد و اطلاعات موردنیاز را پیدا کند یا نه.

اندازه‌گیری کیفیت متن تولیدشده

یکی از چالش‌های مهم ارزیابی مدل‌های زبانی، سنجش کیفیت متنی است که تولید می‌کنند. برای مثال در ترجمه، خلاصه‌سازی یا بازنویسی متن، معمولاً خروجی مدل با یک متن مرجع مقایسه می‌شود. سنجه‌هایی مثل BLEU و ROUGE این کار را با مقایسه شباهت‌ کلمات انجام می‌دهند. هرچه شباهت بین متن خروجی و متن مرجع بیشتر باشد، نمره بالاتر است.

اما این سنجه‌ها محدودیت دارند؛ زیرا فقط شباهت ظاهری را بررسی می‌کنند و ممکن است متنی که معنا را کاملاً درست منتقل کرده ولی ساختار متفاوتی دارد، نمره پایینی بگیرد. به همین دلیل سنجه‌های پیشرفته‌تری مانند BERTScore، COMET و BLEURT طراحی شده‌اند که به‌جای مقایسه کلمه‌ای، «معنای جمله» را می‌سنجند. این روش به واقعیت زبان نزدیک‌تر است و تصویر دقیق‌تری از کیفیت متن ارائه می‌دهد.

نرخ توهم مدل‌ها با چه سنجه‌ای اندازه‌گیری می‌شود؟

برای اندازه‌گیری توهم (Hallucination) در مدل‌های زبانی، از مجموعه‌ای از سنجه‌ها استفاده می‌شود که هر کدام نوعی خطای «اطلاعات نادرست» را می‌سنجند. روش‌های مبتنی‌بر «پرسش‌پاسخ» مثل QAGS و QAEval عملکرد مدل را با مقایسه پاسخ‌هایش با اطلاعاتی که واقعاً در متن یا منبع وجود دارد بررسی می‌کنند. در این روش‌ها ابتدا از متن اصلی سؤال ساخته می‌شود و سپس پاسخ مدل با پاسخ مرجع مقایسه می‌شود؛ هر جا مدل چیزی بگوید که در منبع وجود ندارد، توهم ثبت می‌شود. در گروه دیگر، سنجه‌های مبتنی‌بر «بررسی ادعا» (fact-verification) مانند FactCC یا SummaC قرار دارند. این‌ها بررسی می‌کنند که هر جمله‌ای که مدل تولید کرده، با حقایق موجود در منبع یا شواهد استخراج‌شده سازگار است یا نه. اگر ادعایی با شواهد هم‌خوانی نداشته باشد یا تأییدی برایش پیدا نشود، به‌عنوان توهم ثبت می‌شود.

در کنار این ابزارهای خودکار، ارزیابی انسانی و نسخه‌های ترکیبی نیز نقش مهمی دارند. متخصصان محتوا یا ارزیاب‌های آموزش‌دیده پاسخ‌ها را از نظر «درست بودن»، «قابل‌استناد بودن» و «سازگاری با منبع» بررسی و نرخ توهم را به‌صورت درصد گزارش می‌کنند. برای کارهای حجیم‌تر نیز رویکرد LLM-as-a-judge استفاده می‌شود که در آن یک مدل دیگر نقش داور را دارد و میزان انطباق پاسخ با حقیقت را می‌سنجد؛ البته همیشه در نهایت نیاز به تأیید انسانی باقی می‌ماند، چون مدل داور هم ممکن است خطا کند. امروزه معتبرترین روش‌ها ترکیبی از چند سنجه خودکار به‌همراه نمونه‌برداری و قضاوت انسانی هستند تا نتیجه قابل‌اتکاتر باشد.

بالاخره چت‌ جی‌پی‌تی بهتر است یا جمنای؟

بر اساس آنچه گفت هیچ پاسخ یکسانی برای این سوال وجود ندارد که از بین مدل‌های مختلف ربات‌های گفتگو مانند چت‌ جی‌پی‌تی،‌ جمنای، کلاود،‌ گروک،‌ دیپ‌سیک و ... کدام یک از همه بهتر است. هر کس باید ببیند چه کاربری خاصی مدنظر دارد؛ سپس سنجه یا بنچمارکی که آن کاربری را می‌سنجد،‌ پیدا کند و در نهایت ببینید هر کدام از این مدل‌ها در آن سنجه خاص چه نمره‌ای را کسب کرده‌اند.

به‌عنوان مثال منابع معتبر نیز تأیید می‌کنند که: 

جمنای پرو 3 طبق سنجه‌ها، ویژگی‌ها و قابلیت‌های فنی برتری دارد، اما چت جی‌پی‌تی برای وظایف نوشتاری و گفتگوهای عمومی بهتر است

جمنای در وظایف چندوجهی عالی است، اما چت جی‌پی‌تی در کاربردهای متنی مانند تولید محتوا، کدنویسی و پژوهش برتری دارد

جمنای برای حل مسائل ساختاریافته، پرس‌وجوهای پیچیده ریاضی و کدنویسی یکپارچه مناسب است، در حالی که چت جی‌پی‌تی برای وظایفی که نیاز به خلاقیت روایی، توضیحات مفصل یا محتوای آموزشی ساختاریافته دارند بهتر عمل می‌کند.

به صورت کلی چت جی‌پی‌تی زمانی بهتر است که متن طبیعی و جذاب می‌خواهید و می‌تواند لحن را به راحتی تطبیق دهد، در حالی که جمنای برای وظایف ساختاریافته یا پژوهش‌محور مانند نوشتار آکادمیک و مستندات مناسب‌تر است. همچنین جمنای با پایگاه دانش به‌روزتر (ژانویه ۲۰۲۵) نسبت به چت جی‌پی‌تی (ژوئن ۲۰۲۴) برای دقت واقعی در رویدادهای اخیر و پژوهش بلادرنگ با یکپارچگی جستجوی گوگل بهتر است.

                               

چت جی پی تی     جمنا     عملکرد     هوش مصنوعی        


  ارسال نظر جدید:
      نام :        (در صورت تمایل)

      ایمیل:      (در صورت تمایل) - (نشان داده نمی شود)

     نظر :