2026-03-03 18:37:48

OpenAI 放弃了 SWE-bench Verified，原因是发现59%的失败测试存在缺陷。OpenAI 揭示了 SWE-bench Verified 基准测试中的重大污染问题，前沿 AI 模型记忆了答案，测试拒绝了正确的代码。🧪

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

评论

请输入评论内容

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年全球庆典
1671.9万热度
#
TradFi首创多倍杠杆
55.74万热度
#
加密行情震荡
113.88万热度
#
创作者冲榜
2.95万热度
#
OpenAI拟推出桌面超级应用
66.93万热度

热门 Gate Fun
查看更多

1
MEME
MEMECOIN
市值:$2334.48持有人数:1
0.00%
2
BUTTCOIN
BUTTCOIN
市值:$2320.68持有人数:1
0.00%
3
筑梦人生
筑梦人生
市值:$2320.68持有人数:1
0.00%
4
2026
高中毕业币
市值:$2338.79持有人数:2
0.00%
5
0x5d6cb142f2
meme
市值:$0.1持有人数:1
0.00%