| به نقل از دیجینو، بنچمارک جدید Mercor قادر است قابلیت های عوامل هوش مصنوعی را در وظایف حرفه ای مانند حقوق و تحلیل های شرکتی اندازه گیری کند. در ابتدا، نمرات آن ها بسیار ناامیدکننده بود و هر مدل بزرگ، کمتر از 25 درصد کسب می کرد، بنابراین شاید می توانستیم نتیجه بگیریم که وکلا دست کم فعلاً از جایگزینی توسط هوش مصنوعی در امان هستند. اما قابلیت های هوش مصنوعی می تواند تنها در عرض چند هفته به شدت تغییر کند. انتشار Opus 4.6 از شرکت آنتروپیک جدول رده بندی ها را تکان داد، به طوری که مدل جدید آنتروپیک در آزمایش های یک مرحله ای امتیاز 30 درصد کسب کرد و زمانی که چند شانس بیشتر برای حل مسئله داده شد، میانگین 45 درصد را به دست آورد. قابل توجه است که این نسخه شامل تعدادی ویژگی جدید عامل محور بود. این امتیاز جهش بزرگی نسبت به وضعیت قبلی بوده و نشان دهنده پیشرفت در مدل های پایه است. برندان فودی، مدیرعامل Mercor که به طور خاص تحت تأثیر قرار گرفته بود، گفت: این جهش در عرض چند ماه، واقعاً دیوانه کننده است. البته هنوز فاصله زیادی با 100 درصد وجود دارد، بنابراین وکلا نیازی نیست که نگران جایگزینی توسط ماشین ها در هفته آینده باشند. اما باید اطمینان خود را نسبت به ماه گذشته بسیار کمتر بدانند! |