红杉中国推出XBench评测体系，重构AI能力评估标准

米塔之家 · 2025-06-04 09:16:13

新基准测试工具覆盖7大维度：逻辑推理、多模态理解、伦理合规等，打破传统单一性能指标局限]。测试集包含12万道中文场景题，特别强化对法律、医疗专业领域的评估权重。首批测试显示，国产大模型在复杂任务处理上与GPT-4o差距缩小至15%，但在跨语言推理仍有30%提升空间。

点赞(0) 打赏

上一篇 > QQ浏览器“AI高考通”上线首日服务超50万考生
下一篇 > 雷军宣布小米汽车“反内卷”战略，自研AI芯片年底量产

联系编辑

微信二维码

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部