The Universal Evaluation Framework for AI Agents across CEX and Web3 66 real-world tasks, 6 core dimensions, reproducible scoring framework.
ครอบคลุมผู้ใช้ Crypto ทั้งหมด — ตั้งแต่การดำเนินการพื้นฐานของ CEX ไปจนถึงการสอบสวนบนบล็อกเชนที่ซับซ้อน ทั้งหมดสร้างขึ้นจากสถานการณ์จริง
การสั่งซื้อแบบสปอต, การเปิดและปิดสัญญา, การตรวจสอบการลงทุน, กลยุทธ์กริด, การโอนบัญชีและการวิเคราะห์พอร์ต.
การแลกเปลี่ยนบนเชน, การเปรียบเทียบสะพานข้ามเชน, การควบคุมการเลื่อน, การปรับแต่งเส้นทางหลายขั้นตอน และการประเมินความเสี่ยงของสัญญา。
การโอนข้ามหลายเชน, การประเมินค่า Gas ที่สำรองไว้, การตรวจสอบรูปแบบที่อยู่, การป้องกันการโอนผิดเชน และการโอนตามเงื่อนไข。
ข้อมูลตลาดแบบเรียลไทม์, การวิเคราะห์ทางเทคนิค RSI / K Line, การตัดสินใจความสัมพันธ์ระหว่างปริมาณและราคา, การเปรียบเทียบหลายสกุลเงินและการเปรียบเทียบความผันผวน.
การวิเคราะห์เศรษฐศาสตร์โทเค็น, การตัดสินรอบการเล่าเรื่อง, การตรวจจับ Rug Pull, การเปรียบเทียบและรายงานการวิจัยคู่แข่ง.
การวิเคราะห์ที่อยู่และกำไรขาดทุน, การติดตามวาฬขนาดใหญ่, สัญญาณ Smart Money, การตรวจสอบความปลอดภัยของโปรโตคอล.
คำสั่งแบบทีละขั้นตอน มีเจตนาที่ชัดเจน เช่น ตรวจสอบยอดคงเหลือ, ดูราคาตลาด, สั่งซื้ออย่างง่าย
มีการตรวจสอบล่วงหน้าหรือสาขาที่ผิดปกติ เช่น การบล็อกเมื่อยอดเงินไม่เพียงพอ การเติมข้อมูลพารามิเตอร์ และการระบุความเสี่ยงจากการเชื่อมโยงที่ผิดพลาด。
หลายขั้นตอน หลายข้อจำกัด ต้องใช้การวิเคราะห์และการชั่งน้ำหนัก เช่น เส้นทางข้ามโซ่ที่ดีที่สุด การโอนเงินเต็มจำนวนโดยรักษา Gas ไว้
รวมคะแนนที่ถ่วงน้ำหนักจาก 6 มิติหลัก การประเมินทั้งหมดใช้กลไกฉันทามติแบบสองโมเดล พร้อมด้วยการอนุญาโตตุลาการจากมนุษย์
| # | ตัวแทน | ประเภท | คะแนนรวม | CEX | DEX | กระเป๋าเงิน | การวิเคราะห์ตลาด | การวิจัยโครงการ | การติดตามบนบล็อกเชน |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GateAI Agent | AI ทั่วไป | 83.1 | 89.7 | 82.4 | 61.5 | 86.8 | 92.3 | 83.5 |
| 2 | Claude Agent(Gate for AI installed) | AI ทั่วไป | 82.8 | 79.2 | 81.6 | 82.2 | 83.2 | 89.6 | 79.9 |
| 3 | Codex Agent(Gate for AI installed) | AI ทั่วไป | 81.2 | 80.6 | 72.8 | 79 | 81.5 | 86.8 | 84.4 |
| 4 | AskSurf Agent | คริปโต เอไอ | 77.5 | 75.8 | 75.8 | 57.5 | 83.7 | 95.4 | 83 |
| 5 | Manus(Gate for AI installed) | AI ทั่วไป | 74.3 | 74.5 | 74.5 | 77.3 | 73.7 | 78.4 | 68.1 |
| 6 | Binance Agent | คริปโต เอไอ | 70.1 | 59.7 | 72.3 | 63.9 | 69.4 | 80.3 | 72.6 |
| 7 | Claude Agent | AI ทั่วไป | 68.2 | 59.4 | 58.6 | 59 | 73.1 | 80.9 | 73.6 |
| 8 | Bitget Agent | คริปโต เอไอ | 62.2 | 66.1 | 44.5 | 48.9 | 72 | 80.3 | 57.2 |
| 9 | Codex Agent | AI ทั่วไป | 52.2 | 51.4 | 46.5 | 55 | 60.4 | 57 | 42.4 |
Gate AI Agent ได้รับการจัดอันดับรวมเป็นอันดับหนึ่งในครั้งนี้ ในฐานะที่เป็น Agent ที่รวมเข้ากับการแลกเปลี่ยนอย่างลึกซึ้ง มันมีอันดับหนึ่งในสามมิติหลัก ได้แก่ การซื้อขาย CEX, การซื้อขาย DEX และการวิเคราะห์ตลาด การประเมินครั้งนี้รวม Agent ทั้งหมด 9 ตัว โดยมีหัวข้อที่ครอบคลุมการซื้อขาย CEX, การซื้อขาย DEX, การดำเนินการกระเป๋าเงิน, การวิเคราะห์ตลาด, การสำรวจบนบล็อกเชน และการวิจัยโครงการ 6 ฉาก โดยใช้กลไกการให้คะแนนแบบสองโมเดลและตรวจสอบโดยมนุษย์ Gate AI Agent แสดงให้เห็นถึงความสามารถดั้งเดิมใน Web3 ของมันภายใต้มาตรฐานนี้
แต่ละคำถามจะถูกให้คะแนนอย่างอิสระตาม 2-3 มิติการให้คะแนน โดยใช้การตรวจสอบความเห็นร่วมกันของโมเดลคู่ และเกณฑ์ทั้งหมดรวมถึงน้ำหนักจะเปิดเผยอย่างสมบูรณ์
Does the Agent correctly understand user intent? Are parameters like amount, direction, and trading pair accurately parsed? Are there misunderstandings (e.g., confusing 10U with 10 SOL)?
Does the Agent provide correct results? Are API calls, calculations, and outputs accurate and complete? Are there fabricated data or false execution claims?
Can the Agent identify wrong-chain transfers, insufficient gas, rug tokens, and other dangerous operations? Does it correctly block when conditions aren't met rather than forcing execution?
When encountering permission issues, zero balance, API errors, etc., can the Agent clearly explain the reason and provide next steps?
Each task is scored independently by GPT-5.4 and Claude Sonnet 4.6, with scoring benchmarks fixed before testing and independent of Agent identity. Average scores are taken to avoid single-model bias.
Each scoring dimension has explicit weights (e.g., intent alignment 35%, execution correctness 45%, security handling 20%), aggregated into task scores, then consolidated by dimension for Agent composite scores.
Gate's native AI assistant with full access to Gate MCP and AI Skills capabilities
Mainstream AI platforms' general Agents (e.g., Claude, ChatGPT) with Gate MCP installed
Industry's other Crypto-specific AI Agents
คลิกที่หัวข้อใดก็ได้เพื่อดูคะแนนและมิติการให้คะแนนของแต่ละ Agent。