Я сегодня увидел интересный бенчмарк, который многое говорит о возможностях моделей ИИ. PinchBench протестировал различные модели на задачах агента OpenClaw, и результаты получились совершенно разными.



Gemini 3 Flash лидирует — с показателем успеха 95,1%. Но что интересно, другие модели тоже очень близки. minimax-m2.1 достиг 93,6%, а kimi-k2.5 — 93,4%. Claude Sonnet 4.5 показывает 92,7%, в то время как GPT-4o — 85,2%.

Разница между этими моделями кажется не очень большой, но когда речь идет о задачах агента, даже эти небольшие различия имеют значение. Если вы хотите узнать настоящую эффективность моделей ИИ, такие бенчмарки очень полезны.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить