OpenAI发布全新AI Agent评测基准PaperBench,要求智能体复现ICML 2024顶级论文(包括代码编写与实验执行)。测试显示,当前主流模型(如Claude 3.5 Sonnet)最高复现分数仅21%,显著落后于人类博士,但辅助科研潜力显著
联系编辑
微信二维码
微信公众账号
微信扫一扫加关注