انقلابی در ارزیابی هوش مصنوعی: رضایت انسان، معیار نهایی

جاده مخصوص، سرویس 

عامل‌های هوش مصنوعی که با مدل‌های زبان بزرگ (LLM) کار می‌کنند، به سرعت در حال تبدیل شدن به ابزاری قدرتمند هستند. اما چگونه می‌توانیم بفهمیم کدام‌یک واقعاً برای کاربران مفید است؟ تاکنون، ارزیابی این عامل‌ها بیشتر بر اساس بنچمارک‌های خودکار بوده است که عملکرد آن‌ها را در حالت کاملاً مستقل می‌سنجد، در حالی که در دنیای واقعی، تعامل با انسان بخش مهمی از کار آن‌هاست.

به گزارش پایگاه اطلاع رسانی جاده مخصوص، پژوهشگران برای حل این مشکل، یک چارچوب جدید و کارآمد برای ارزیابی انسان-محور به نام PULSE ارائه کرده‌اند. این چارچوب با جمع‌آوری بازخورد مستقیم از کاربران، آموزش یک مدل یادگیری ماشین برای پیش‌بینی رضایت آن‌ها و ترکیب نتایج انسانی با برچسب‌های تولیدشده توسط مدل، به ارزیابی دقیق‌تری دست می‌یابد.

این تیم تحقیقاتی، چارچوب PULSE را بر روی یک پلتفرم بزرگ مبتنی بر عامل نرم‌افزاری متن‌باز OpenHands با بیش از ۱۵ هزار کاربر پیاده‌سازی کرد. آن‌ها تأثیر تصمیمات کلیدی در طراحی عامل‌ها، مانند انتخاب مدل هوش مصنوعی (مثلاً مقایسه claude-sonnet-4 و gpt-5)، استراتژی برنامه‌ریزی و مکانیزم‌های حافظه را بر میزان رضایت توسعه‌دهندگان بررسی کردند.

نتایج این مطالعه نشان داد که تفاوت‌های قابل توجهی بین عملکرد عامل‌ها در دنیای واقعی و نتایج بنچمارک‌های استاندارد وجود دارد. این یافته‌ها بر محدودیت‌های ارزیابی‌های مبتنی بر بنچمارک تأکید می‌کند و راهنمایی‌های عملی برای طراحی عامل‌های هوش مصنوعی بهتر و کاربرپسندتر ارائه می‌دهد.

مطالب مرتبط

نظرات شما

. نظرات حاوی توهین و هرگونه نسبت ناروا به اشخاص حقیقی و حقوقی منتشر نمی‌شود.
. نظراتی که غیر از زبان فارسی یا غیر مرتبط با خبر باشد منتشر نمی‌شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *