AI-ABC

AI Agent Benchmarkfor

Khung đánh giá phổ quát cho AI Agent trong CEX và Web3 66 nhiệm vụ thực tế, 6 chiều hạt nhân, khung đánh giá có thể tái tạo

66+

Đánh giá nhiệm vụ

6

Kích thước cốt lõi

9+

Tham gia đánh giá Agent

Hàng tháng

Cập nhật hàng tháng

Kích thước

Đánh giá các tiêu chí

Bao phủ toàn bộ chuỗi liên kết của người dùng Crypto — từ các thao tác cơ bản trên CEX đến các cuộc điều tra phức tạp trên chuỗi, tất cả đều được xây dựng dựa trên các tình huống thực tế.

10 nhiệm vụ

CEX

Đặt hàng giao ngay, mở và đóng hợp đồng, tra cứu tài chính, chiến lược lưới, chuyển khoản tài khoản và phân tích danh mục.

10 nhiệm vụ

DEX

Swap trên chuỗi, so sánh cầu nối đa chuỗi, kiểm soát trượt giá, tối ưu hóa định tuyến nhiều bước và đánh giá rủi ro hợp đồng.

10 nhiệm vụ

Ví tiền

Chuyển khoản đa chuỗi, ước tính dự trữ Gas, kiểm tra định dạng địa chỉ, chặn chuỗi sai và chuyển khoản có điều kiện.

12 nhiệm vụ

Phân tích thị trường

Thị trường thời gian thực, phân tích kỹ thuật RSI / K, đánh giá mối quan hệ giữa khối lượng và giá, so sánh nhiều loại tiền tệ và so sánh độ biến động.

12 nhiệm vụ

Nghiên cứu dự án

Phân tích kinh tế token, đánh giá chu kỳ kể chuyện, phát hiện Rug Pull, so sánh và báo cáo nghiên cứu đối thủ cạnh tranh.

12 nhiệm vụ

Theo dõi trên chuỗi

Phân tích địa chỉ và lợi nhuận, theo dõi cá voi, tín hiệu Smart Money, giám sát an ninh giao thức.

L1

Cách thao tác cơ bản

Lệnh từng bước, ý định rõ ràng. Như kiểm tra số dư, xem giá thị trường, đặt hàng đơn giản.

L2

Điều kiện hoạt động

Bao gồm kiểm tra trước hoặc nhánh ngoại lệ. Như chặn khi số dư không đủ, hoàn thiện tham số, nhận diện rủi ro chuỗi sai.

L3

Nhiệm vụ phức hợp

Nhiều bước, nhiều ràng buộc, cần suy luận và cân nhắc. Như đường đi tối ưu giữa các chuỗi, chuyển khoản toàn bộ giữ lại Gas.

Kết quả tháng 3 năm 2026

Bảng xếp hạng đánh giá

Tổng hợp điểm số có trọng số từ 6 chiều. Tất cả các đánh giá đều sử dụng cơ chế đồng thuận hai mô hình, kèm theo trọng tài nhân tạo.

#Đại lýLoạiTổng điểmCEXDEXVí tiềnPhân tích thị trườngNghiên cứu dự ánTheo dõi trên chuỗi
1
GateAI Agent
Trí tuệ nhân tạo tổng quát83.189.782.461.586.892.383.5
2
Claude AgentGate for AI đã cài đặt)
Trí tuệ nhân tạo tổng quát82.879.281.682.283.289.679.9
3
Codex AgentGate for AI đã cài đặt)
Trí tuệ nhân tạo tổng quát81.280.672.87981.586.884.4
4
AskSurf Agent
AI Tiền Điện Tử77.575.875.857.583.795.483
5
ManusGate for AI đã cài đặt)
Trí tuệ nhân tạo tổng quát74.374.574.577.373.778.468.1
6
Binance Agent
AI Tiền Điện Tử70.159.772.363.969.480.372.6
7
Claude Agent
Trí tuệ nhân tạo tổng quát68.259.458.65973.180.973.6
8
Bitget Agent
AI Tiền Điện Tử62.266.144.548.97280.357.2
9
Codex Agent
Trí tuệ nhân tạo tổng quát52.251.446.55560.45742.4
CEXDEXVí tiềnPhân tích thị trườngNghiên cứu dự ánTheo dõi trên chuỗi
GateAI Agent83.1
Claude Agent(Gate for AI đã cài đặt)82.8
Codex Agent(Gate for AI đã cài đặt)81.2

Gate AI Agent đã đạt vị trí số một trong bảng xếp hạng tổng hợp của lần đánh giá này. Là một Agent gốc được tích hợp sâu vào sàn giao dịch, nó đứng đầu trong ba lĩnh vực cốt lõi: giao dịch CEX, giao dịch DEX và phân tích thị trường. Lần đánh giá này bao gồm 9 Agent, với các chủ đề trải dài qua 6 kịch bản: giao dịch CEX, giao dịch DEX, thao tác ví, phân tích thị trường, điều tra trên chuỗi và nghiên cứu dự án, được chấm điểm bằng cơ chế đồng thuận hai mô hình và được kiểm tra lại bằng tay. Hiệu suất của Gate AI Agent dưới tiêu chuẩn này là một sự xác thực hoàn chỉnh cho khả năng gốc Web3 của nó.

Khung điểm số

Phương pháp đánh giá

Mỗi câu hỏi được chấm điểm độc lập theo 2-3 tiêu chí đánh giá, sử dụng mô hình đồng thuận kép, tất cả các tiêu chuẩn và trọng số đều được công khai hoàn toàn.

Intent & Parameter Alignment

Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?

Execution Result Correctness

Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?

Nhận diện và ngăn chặn rủi ro

Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?

Exception Compatibility & Expression

When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?

PASS
1.0
Hoàn toàn đáp ứng tất cả các tiêu chí đánh giá.
PARTIAL
0.6
Hướng đi đúng, nhưng thực hiện chưa đầy đủ.
FAIL
0.0
Lỗi, bịa đặt hoặc có rủi ro an ninh

Đánh giá đồng thuận mô hình kép

Mỗi nhiệm vụ được đánh giá độc lập bởi GPT-5.4 và Claude Sonnet 4.6, với tiêu chí đánh giá được cố định trước khi kiểm tra và độc lập với danh tính của Agent. Điểm trung bình được lấy để tránh sai lệch của mô hình đơn.

Điểm số tổng hợp có trọng số

Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.

Tham gia đánh giá phân loại Agent

Đại lý AI Gate

Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities

Đại lý AI tổng quát

Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed

Đại lý AI Crypto bên thứ ba

Industry's other Crypto-specific AI Agents

Chi tiết đánh giá chủ đề

Chi tiết đánh giá từng câu hỏi

Nhấp vào bất kỳ câu hỏi nào để mở rộng xem điểm số và các tiêu chí đánh giá của từng Agent.

CEX

DEX

Ví tiền

Phân tích thị trường

Nghiên cứu dự án

Theo dõi trên chuỗi

cex_001L1Help me check how much USDT I have left in my spot account.100
Help me check how much USDT I have left in my spot account.
GateAI Agent100
Claude Agent(Gate for AI đã cài đặt)95
Codex Agent(Gate for AI đã cài đặt)82.5
AskSurf Agent36.5
Manus(Gate for AI đã cài đặt)94
Binance Agent87.5
Claude Agent36.5
Bitget Agent77.5
Codex Agent36.5
Các tiêu chí đánh giá
Account intent understandingIs it correctly identified as a spot account balance inquiry, rather than total assets, contract balance, or deposit operation?
Balance inquiry accuracyWhether to return the available balance of spot USDT, with clear values and units, distinguishing between available and frozen.
Error handling and explanationWhen encountering issues such as not being logged in or authorization expiration, is a clear reason and next steps provided?
cex_002L1Buy 10U of SOL at market price.89
Buy 10U of SOL at market price.
GateAI Agent89
Claude Agent(Gate for AI đã cài đặt)72.5
Codex Agent(Gate for AI đã cài đặt)87.5
AskSurf Agent77.5
Manus(Gate for AI đã cài đặt)90
Binance Agent67.5
Claude Agent77.5
Bitget Agent42.5
Codex Agent36.5
Các tiêu chí đánh giá
Instruction parsing accuracyWhether it correctly understands 10U as the amount in USDT, rather than the quantity of 10 SOL.
Transaction execution integrityWhether to return transaction results, confirmation steps, or a clear order status explanation
Risk identification and blockingWhen the balance is insufficient or permissions are restricted, is it accurately blocked and does it prompt the user for the next steps?
cex_003L1What is the annualized yield of USDT financial products?95
What is the annualized yield of USDT financial products?
GateAI Agent95
Claude Agent(Gate for AI đã cài đặt)87.5
Codex Agent(Gate for AI đã cài đặt)91
AskSurf Agent77.5
Manus(Gate for AI đã cài đặt)72.5
Binance Agent65
Claude Agent77.5
Bitget Agent69
Codex Agent42.5
Các tiêu chí đánh giá
Product range identificationIs it focused on USDT wealth management/earning products rather than leaning towards trading or lending?
Result ValidityWhether at least one type of valid USDT financial product and its annualized yield is returned
Description of Earnings and RestrictionsDoes it explain the dynamic changes in the rate of return or qualifications/region restrictions?
cex_004L1Help me find a seller who supports Alipay to buy 5,000 USDT.100
Help me find a seller who supports Alipay to buy 5,000 USDT.
GateAI Agent100
Claude Agent(Gate for AI đã cài đặt)47.5
Codex Agent(Gate for AI đã cài đặt)60
AskSurf Agent77.5
Manus(Gate for AI đã cài đặt)55
Binance Agent40
Claude Agent36.5
Bitget Agent42.5
Codex Agent71.5
Các tiêu chí đánh giá
P2P Scene RecognitionIs it correctly identified as P2P fiat currency purchase, extracting Alipay, 5000 yuan, and USDT as three parameters?
Matching result qualityWhether to return a list of ads that meet the criteria or executable purchase plans
Block and Risk DescriptionWhen there are no ads or insufficient qualifications, is a clear reason and next steps provided?
cex_005L2Short ETH90
Short ETH
GateAI Agent90
Claude Agent(Gate for AI đã cài đặt)92.5
Codex Agent(Gate for AI đã cài đặt)82.5
AskSurf Agent36.5
Manus(Gate for AI đã cài đặt)75
Binance Agent71.5
Claude Agent52.5
Bitget Agent52.5
Codex Agent36.5
Các tiêu chí đánh giá
Understanding Trading DirectionCorrectly identifying shorting ETH as opening a short position in a perpetual contract, rather than selling the spot.
Parameter completion and planWhether to actively inquire when parameters are missing, and whether the final plan includes direction/leverage/margin.
Executing a closed loop and blockingAfter all parameters are complete, can an executable plan be provided, and is the blocking accurate under time constraints?
cex_006L2Help me close the long position on BTC.72.5
Help me close the long position on BTC.
GateAI Agent72.5
Claude Agent(Gate for AI đã cài đặt)96
Codex Agent(Gate for AI đã cài đặt)95
AskSurf Agent52.5
Manus(Gate for AI đã cài đặt)82.5
Binance Agent51.5
Claude Agent36.5
Bitget Agent89
Codex Agent61.5
Các tiêu chí đánh giá
Position closing semantic recognitionIs it correctly identified as closing long/selling, rather than opening a short position?
Position verification and resultsShould we first check the BTC long position and then provide the closing result or the next confirmation?
Risk and Exception HandlingIn scenarios such as no positions or insufficient permissions, is an accurate explanation provided?
cex_007L2Transfer 10 USDT from the spot account to the perpetual contract account.90
Transfer 10 USDT from the spot account to the perpetual contract account.
GateAI Agent90
Claude Agent(Gate for AI đã cài đặt)94
Codex Agent(Gate for AI đã cài đặt)92.5
AskSurf Agent71.5
Manus(Gate for AI đã cài đặt)92.5
Binance Agent71.5
Claude Agent67.5
Bitget Agent69
Codex Agent52.5
Các tiêu chí đánh giá
Transfer path correctnessWhether it is correctly identified as an internal transfer, with the direction from the spot account to the perpetual contract account.
Execution or blocking resultsProvide status explanation when transfer is successful, and whether it accurately blocks when the balance is insufficient.
Clarity of InformationIs the account direction, amount, and reason for the anomaly clearly expressed?
cex_008L2Buy $100 when ETH drops to $2500.75
Buy $100 when ETH drops to $2500.
GateAI Agent75
Claude Agent(Gate for AI đã cài đặt)62.5
Codex Agent(Gate for AI đã cài đặt)70
AskSurf Agent62.5
Manus(Gate for AI đã cài đặt)59
Binance Agent37.5
Claude Agent77.5
Bitget Agent62.5
Codex Agent62.5
Các tiêu chí đánh giá
Order Type IdentificationWhether recognized as a limit buy order at the target price, rather than a market order for immediate execution.
Parameter AccuracyAre the three core parameters of ETH cryptocurrency, target price of 2500, and amount of 100U all accurate?
Execute closed loopIs confirmation/execution status provided, and is it accurately blocked under constraints?
cex_009L3Please help me analyze whether my total account over the last 30 days has outperformed BTC, and also check the win rate and profit-loss ratio of USDT perpetual contracts.90
Please help me analyze whether my total account over the last 30 days has outperformed BTC, and also check the win rate and profit-loss ratio of USDT perpetual contracts.
GateAI Agent90
Claude Agent(Gate for AI đã cài đặt)85
Codex Agent(Gate for AI đã cài đặt)77.5
AskSurf Agent77.5
Manus(Gate for AI đã cài đặt)49
Binance Agent27.5
Claude Agent62.5
Bitget Agent77.5
Codex Agent77.5
Các tiêu chí đánh giá
The analysis scope covers whether it simultaneously encompasses both the account's performance surpassing BTC and the analysis of perpetual trading behavior.
Results and Index AccuracyWhether a conclusion is given on whether it outperforms BTC, as well as win rate and profit-loss ratio data.
Caliber and Exception HandlingAre the two types of analysis calibers clearly distinguished, and are the limitations explained separately when there is no data?
cex_010L3Open a BTC spot grid with 100 USDT.95
Open a BTC spot grid with 100 USDT.
GateAI Agent95
Claude Agent(Gate for AI đã cài đặt)60
Codex Agent(Gate for AI đã cài đặt)67.5
AskSurf Agent77.5
Manus(Gate for AI đã cài đặt)75
Binance Agent77.5
Claude Agent69
Bitget Agent79
Codex Agent36.5
Các tiêu chí đánh giá
Strategy Type IdentificationCorrectly identified as BTC spot grid, rather than contract grid or other quantitative strategies.
Plan parameter correctnessDoes it accurately reflect the three key elements of BTC, 100 USDT, and spot grid?
Blocking and Limitation ExplanationWhen the balance is insufficient or the strategy is unavailable, is a clear reason provided?

Câu hỏi thường gặp

Câu hỏi thường gặp

AI-ABC là gì?+

AI-ABC (AI Agent Benchmark for Crypto) là khung đánh giá tiêu chuẩn hóa đầu tiên của ngành được thiết kế đặc biệt cho AI Agent trong các kịch bản Crypto. Nó bao gồm 6 chiều: giao dịch CEX, hoạt động DEX, quản lý ví, phân tích thị trường, nghiên cứu dự án và theo dõi on-chain. Sử dụng 66+ nhiệm vụ thực tế dựa trên các kịch bản người dùng thực tế, nó sử dụng các cơ chế đánh giá có thể tái tạo để đánh giá các AI Agent khác nhau trong CEX và Web3.

Benchmark này khác gì với GAIA và AgentBench?+

Các khung đánh giá hiện có như GAIA và AgentBench tập trung vào các kịch bản chung mà không có các nhiệm vụ cụ thể về Crypto. Tất cả các nhiệm vụ của AI-ABC đều dựa trên các hoạt động Crypto thực tế — từ "mua $10 SOL với giá thị trường" đến "chuyển 1000 USDC qua các chuỗi và hoán đổi thành ETH với kiểm soát trượt" — bao gồm nhiều nhiệm vụ hoạt động yêu cầu các lệnh gọi API thực tế đến các sàn giao dịch, giao diện ví và dữ liệu on-chain. Điều này hoàn toàn ngoài phạm vi của các tiêu chuẩn chung.

Benchmark được thực hiện việc chấm điểm như thế nào?+

Điểm số dựa trên hiệu suất của AI Agent trong hơn 66 nhiệm vụ thực tế, xem xét tổng thể độ hoàn thành nhiệm vụ, độ chính xác và hiệu quả thực hiện cùng nhiều chỉ số khác, đảm bảo kết quả đánh giá khách quan, công bằng và có tính so sánh.

Đánh giá dữ liệu được cập nhật bao lâu một lần?+

Cập nhật hàng tháng. Với việc các Agent liên tục nâng cấp và các Agent mới gia nhập, chúng tôi sẽ tiếp tục thực hiện đánh giá và cập nhật bảng xếp hạng. Ngân hàng câu hỏi cũng sẽ được mở rộng dựa trên sự phát triển của ngành và các tình huống mới.

Điểm số có khách quan không? Gate AI tự tham gia đánh giá có công bằng không?+

Tiêu chí đánh giá được cố định trước khi kiểm tra và độc lập với danh tính của Agent. Các đánh giá sử dụng sự đồng thuận của mô hình kép (GPT-5.4 và Claude Sonnet 4.6 chấm điểm độc lập), với điểm trung bình để tránh sai lệch của mô hình đơn. Tất cả các chiều đánh giá, trọng số và tiêu chuẩn nhiệm vụ đều có sẵn công khai trên GitHub để bất kỳ ai cũng có thể tái tạo.

Đánh giá độ khó của nhiệm vụ được phân chia như thế nào?+

Chia thành ba cấp độ — L1 (hoạt động cơ bản: lệnh từng bước, ý định rõ ràng), L2 (hoạt động có điều kiện: bao gồm kiểm tra trước hoặc nhánh bất thường), L3 (nhiệm vụ phức hợp: nhiều bước, nhiều ràng buộc, cần suy luận và cân nhắc). Độ khó càng cao, càng thể hiện khả năng ra quyết định tổng hợp của Agent trong các tình huống Crypto thực tế.

Sự khác biệt chính giữa Đại lý AI tổng quát và Đại lý chuyên dụng cho Crypto là gì?+

Các tác nhân AI tổng quát (như Claude, ChatGPT) thể hiện gần giống như các tác nhân chuyên dụng trong các nhiệm vụ truy vấn thông tin (phân tích thị trường, nghiên cứu dự án), nhưng có sự khác biệt rõ rệt trong các nhiệm vụ yêu cầu thực hiện thực tế (đặt lệnh giao dịch, chuyển tiền trên chuỗi, ước lượng Gas và ngăn chặn chuỗi sai). Đây cũng là lý do cốt lõi mà lĩnh vực Crypto cần cơ sở hạ tầng AI Agent chuyên biệt.