OpenAI开源智能体评测基准PaperBench

米塔之家 · 2025-04-03 11:52:20

OpenAI发布全新AI Agent评测基准PaperBench，要求智能体复现ICML 2024顶级论文（包括代码编写与实验执行）。测试显示，当前主流模型（如Claude 3.5 Sonnet）最高复现分数仅21%，显著落后于人类博士，但辅助科研潜力显著

点赞(0) 打赏