Я сьогодні побачив цікавий бенчмарк, який багато говорить про можливості моделей штучного інтелекту. PinchBench протестував різні моделі на завданнях агентів OpenClaw, і результати виявилися зовсім різними.



Gemini 3 Flash лідирує — з показником успішності 95,1%. Але цікаво те, що інші моделі також дуже близькі за результатами. minimax-m2.1 досяг 93,6%, а kimi-k2.5 — 93,4%. Claude Sonnet 4.5 має 92,7%, тоді як GPT-4o — 85,2%.

Різниця між цими моделями здається не дуже великою, але коли мова йде про завдання агентів, навіть ці невеликі відмінності мають значення. Якщо ви хочете дізнатися справжню ефективність моделей штучного інтелекту, перегляд таких бенчмарків дуже корисний.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити