Anthropic a testé dix modèles d'IA sur 405 exploits de contrats intelligents historiques et en a reproduit 207.
Trois modèles ont généré 4,6 millions de dollars en exploits simulés sur des contrats créés après la date limite de leur formation.
Les agents ont également découvert deux nouvelles vulnérabilités zero-day dans des contrats récents de la Binance Smart Chain.
Hub d'art, de mode et de divertissement de Decrypt.
Découvrez SCENE
Des agents d'IA ont égalé les performances des attaquants humains qualifiés dans plus de la moitié des exploits de contrats intelligents enregistrés sur les principales blockchains au cours des cinq dernières années, selon de nouvelles données publiées lundi par Anthropic.
Anthropic a évalué dix modèles de pointe, dont Llama 3, Sonnet 3.7, Opus 4, GPT-5 et DeepSeek V3, sur un ensemble de données de 405 exploits historiques de contrats intelligents. Les agents ont produit des attaques fonctionnelles contre 207 d'entre eux, totalisant $550 millions de fonds volés simulés.
Les résultats ont montré à quelle vitesse les systèmes automatisés peuvent exploiter des vulnérabilités et identifier de nouvelles vulnérabilités que les développeurs n'ont pas traitées.
La nouvelle divulgation est la dernière de la part du développeur de Claude AI. Le mois dernier, Anthropic a détaillé comment des hackers chinois ont utilisé Claude Code pour lancer ce qu'ils appelaient la première cyberattaque pilotée par l'IA.
Les experts en sécurité ont déclaré que les résultats confirmaient à quel point de nombreuses failles étaient déjà accessibles.
« L'IA est déjà utilisée dans des outils ASPM comme Wiz Code et Apiiro, ainsi que dans des scanners SAST et DAST standard », a déclaré David Schwed, COO de SovereignAI, à Decrypt. « Cela signifie que les acteurs malveillants utiliseront la même technologie pour identifier les vulnérabilités. »
Schwed a déclaré que les attaques pilotées par des modèles décrites dans le rapport seraient faciles à étendre car de nombreuses vulnérabilités sont déjà publiquement divulguées par le biais des Vulnérabilités et Expositions Communes ou des rapports d'audit, les rendant apprenables par des systèmes d'IA et faciles à tenter contre des contrats intelligents existants.
« Il serait encore plus facile de trouver une vulnérabilité divulguée, de trouver des projets qui ont forké ce projet, et d'essayer simplement cette vulnérabilité, qui n'a peut-être pas été corrigée, » a-t-il déclaré. « Tout cela peut maintenant être fait 24 heures sur 24, 7 jours sur 7, contre tous les projets. Même ceux avec des TVL plus petits sont des cibles, parce que pourquoi pas ? C'est agentique. »
Pour mesurer les capacités actuelles, Anthropic a tracé les revenus totaux d'exploitation de chaque modèle par rapport à sa date de sortie en utilisant uniquement les 34 contrats exploités après mars 2025.
“Bien que le revenu total des exploits soit une métrique imparfaite — car quelques exploits extrêmes dominent le revenu total — nous le mettons en avant par rapport au taux de réussite des attaques, car les attaquants se soucient de la quantité d'argent que les agents IA peuvent extraire, et non du nombre ou de la difficulté des bugs qu'ils trouvent,” a déclaré la société.
Anthropic n'a pas immédiatement répondu aux demandes de commentaire de Decrypt.
Anthropic a déclaré avoir testé les agents sur un ensemble de données zero-day de 2 849 contrats tirés de plus de 9,4 millions sur Binance Smart Chain.
La société a déclaré que Claude Sonnet 4.5 et GPT-5 avaient chacun découvert deux défauts non divulgués qui ont produit 3 694 $ de valeur simulée, GPT-5 ayant atteint son résultat à un coût API de 3 476 $. Anthropic a noté que tous les tests se déroulaient dans des environnements isolés qui reproduisaient des blockchains et non des réseaux réels.
Son modèle le plus puissant, Claude Opus 4.5, a exploité 17 des vulnérabilités post-mars 2025 et représentait 4,5 millions de dollars de la valeur totale simulée.
L'entreprise a lié les améliorations entre les modèles aux avancées dans l'utilisation des outils, la récupération d'erreurs et l'exécution de tâches à long terme. Au cours de quatre générations de modèles Claude, les coûts des jetons ont diminué de 70,2 %.
L'un des défauts récemment découverts impliquait un contrat de jeton avec une fonction de calcul public qui manquait d'un modificateur de vue, ce qui permettait à l'agent de modifier à plusieurs reprises les variables d'état internes et de vendre des soldes gonflés sur des échanges décentralisés. L'exploit simulé a généré environ 2 500 $.
Schwed a déclaré que les problèmes soulignés dans l'expérience n'étaient “en réalité que des défauts de logique commerciale,” ajoutant que les systèmes d'IA peuvent identifier ces faiblesses lorsqu'ils sont dotés de structure et de contexte.
« L'IA peut également les découvrir en comprenant comment un contrat intelligent doit fonctionner et avec des instructions détaillées sur la façon d'essayer de contourner les vérifications logiques dans le processus », a-t-il déclaré.
Anthropic a déclaré que les capacités qui permettaient aux agents d'exploiter des contrats intelligents s'appliquent également à d'autres types de logiciels, et que la baisse des coûts réduira le délai entre le déploiement et l'exploitation. L'entreprise a exhorté les développeurs à adopter des outils automatisés dans leurs flux de travail de sécurité afin que l'utilisation défensive progresse aussi rapidement que l'utilisation offensive.
Malgré l'avertissement d'Anthropic, Schwed a déclaré que les perspectives ne sont pas uniquement négatives.
« Je repousse toujours le fatalisme et dis qu'avec des contrôles appropriés, des tests internes rigoureux, ainsi qu'une surveillance en temps réel et des coupe-circuits, la plupart de ces problèmes sont évitables », a-t-il déclaré. « Les bons acteurs ont le même accès aux mêmes agents. Donc, si les mauvais acteurs peuvent le trouver, les bons acteurs le peuvent aussi. Nous devons penser et agir différemment. »
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Les modèles d'IA Frontier démontrent une capacité de niveau humain dans les exploits de Smart Contract.
En bref
Hub d'art, de mode et de divertissement de Decrypt.
Découvrez SCENE
Des agents d'IA ont égalé les performances des attaquants humains qualifiés dans plus de la moitié des exploits de contrats intelligents enregistrés sur les principales blockchains au cours des cinq dernières années, selon de nouvelles données publiées lundi par Anthropic.
Anthropic a évalué dix modèles de pointe, dont Llama 3, Sonnet 3.7, Opus 4, GPT-5 et DeepSeek V3, sur un ensemble de données de 405 exploits historiques de contrats intelligents. Les agents ont produit des attaques fonctionnelles contre 207 d'entre eux, totalisant $550 millions de fonds volés simulés.
Les résultats ont montré à quelle vitesse les systèmes automatisés peuvent exploiter des vulnérabilités et identifier de nouvelles vulnérabilités que les développeurs n'ont pas traitées.
La nouvelle divulgation est la dernière de la part du développeur de Claude AI. Le mois dernier, Anthropic a détaillé comment des hackers chinois ont utilisé Claude Code pour lancer ce qu'ils appelaient la première cyberattaque pilotée par l'IA.
Les experts en sécurité ont déclaré que les résultats confirmaient à quel point de nombreuses failles étaient déjà accessibles.
« L'IA est déjà utilisée dans des outils ASPM comme Wiz Code et Apiiro, ainsi que dans des scanners SAST et DAST standard », a déclaré David Schwed, COO de SovereignAI, à Decrypt. « Cela signifie que les acteurs malveillants utiliseront la même technologie pour identifier les vulnérabilités. »
Schwed a déclaré que les attaques pilotées par des modèles décrites dans le rapport seraient faciles à étendre car de nombreuses vulnérabilités sont déjà publiquement divulguées par le biais des Vulnérabilités et Expositions Communes ou des rapports d'audit, les rendant apprenables par des systèmes d'IA et faciles à tenter contre des contrats intelligents existants.
« Il serait encore plus facile de trouver une vulnérabilité divulguée, de trouver des projets qui ont forké ce projet, et d'essayer simplement cette vulnérabilité, qui n'a peut-être pas été corrigée, » a-t-il déclaré. « Tout cela peut maintenant être fait 24 heures sur 24, 7 jours sur 7, contre tous les projets. Même ceux avec des TVL plus petits sont des cibles, parce que pourquoi pas ? C'est agentique. »
Pour mesurer les capacités actuelles, Anthropic a tracé les revenus totaux d'exploitation de chaque modèle par rapport à sa date de sortie en utilisant uniquement les 34 contrats exploités après mars 2025.
“Bien que le revenu total des exploits soit une métrique imparfaite — car quelques exploits extrêmes dominent le revenu total — nous le mettons en avant par rapport au taux de réussite des attaques, car les attaquants se soucient de la quantité d'argent que les agents IA peuvent extraire, et non du nombre ou de la difficulté des bugs qu'ils trouvent,” a déclaré la société.
Anthropic n'a pas immédiatement répondu aux demandes de commentaire de Decrypt.
Anthropic a déclaré avoir testé les agents sur un ensemble de données zero-day de 2 849 contrats tirés de plus de 9,4 millions sur Binance Smart Chain.
La société a déclaré que Claude Sonnet 4.5 et GPT-5 avaient chacun découvert deux défauts non divulgués qui ont produit 3 694 $ de valeur simulée, GPT-5 ayant atteint son résultat à un coût API de 3 476 $. Anthropic a noté que tous les tests se déroulaient dans des environnements isolés qui reproduisaient des blockchains et non des réseaux réels.
Son modèle le plus puissant, Claude Opus 4.5, a exploité 17 des vulnérabilités post-mars 2025 et représentait 4,5 millions de dollars de la valeur totale simulée.
L'entreprise a lié les améliorations entre les modèles aux avancées dans l'utilisation des outils, la récupération d'erreurs et l'exécution de tâches à long terme. Au cours de quatre générations de modèles Claude, les coûts des jetons ont diminué de 70,2 %.
L'un des défauts récemment découverts impliquait un contrat de jeton avec une fonction de calcul public qui manquait d'un modificateur de vue, ce qui permettait à l'agent de modifier à plusieurs reprises les variables d'état internes et de vendre des soldes gonflés sur des échanges décentralisés. L'exploit simulé a généré environ 2 500 $.
Schwed a déclaré que les problèmes soulignés dans l'expérience n'étaient “en réalité que des défauts de logique commerciale,” ajoutant que les systèmes d'IA peuvent identifier ces faiblesses lorsqu'ils sont dotés de structure et de contexte.
« L'IA peut également les découvrir en comprenant comment un contrat intelligent doit fonctionner et avec des instructions détaillées sur la façon d'essayer de contourner les vérifications logiques dans le processus », a-t-il déclaré.
Anthropic a déclaré que les capacités qui permettaient aux agents d'exploiter des contrats intelligents s'appliquent également à d'autres types de logiciels, et que la baisse des coûts réduira le délai entre le déploiement et l'exploitation. L'entreprise a exhorté les développeurs à adopter des outils automatisés dans leurs flux de travail de sécurité afin que l'utilisation défensive progresse aussi rapidement que l'utilisation offensive.
Malgré l'avertissement d'Anthropic, Schwed a déclaré que les perspectives ne sont pas uniquement négatives.
« Je repousse toujours le fatalisme et dis qu'avec des contrôles appropriés, des tests internes rigoureux, ainsi qu'une surveillance en temps réel et des coupe-circuits, la plupart de ces problèmes sont évitables », a-t-il déclaré. « Les bons acteurs ont le même accès aux mêmes agents. Donc, si les mauvais acteurs peuvent le trouver, les bons acteurs le peuvent aussi. Nous devons penser et agir différemment. »