Enfin un benchmark qui a réellement de l'importance.


Oubliez MMLU et les scores en mathématiques.. PinchBench teste quel modèle d'IA est le meilleur pour faire du vrai travail.
Pas répondre à des questions triviales. Faire réellement des choses :
→ rechercher des informations sur plusieurs sources web
→ créer et planifier des réunions
→ organiser des fichiers sur votre ordinateur
→ rédiger et gérer des emails
Il teste des modèles fonctionnant en tant qu'agents via OpenClaw.. ce qui signifie que l'IA doit utiliser des outils, enchaîner des actions, et accomplir des tâches de bout en bout.
Les résultats sont intéressants :
> Gemini 3 Flash en tête à 95,1%
> MiniMax M2.1 juste derrière à 93,6%
> Kimi K2.5 à 93,4%
> Claude Sonnet à 92,7%
> Gemini 3 Pro à 91,7%
> Claude Haiku à 90,8%
> Claude Opus 4.6 à 90,6%
> GPT-5 Nano à 85,8%
L'écart entre le premier et le dernier n'est que d'environ ~10%.. ce qui signifie que la plupart des modèles de pointe deviennent assez performants pour les tâches d'agents.
Mais la véritable conclusion ? Gemini Flash.. un modèle léger.. dépasse tous les modèles lourds pour le travail pratique d'agent. vitesse + utilisation d'outils > intelligence brute.
C'est le genre de benchmark qui devrait décider quel modèle vous utilisez au quotidien.. pas un test académique auquel personne ne peut s'identifier.
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler