AI大神Karpathy对当前LLM评估基准提出质疑,认为存在评估危机。UCSD Hao AI Lab开源 “游戏智能体”,用超级马里奥等游戏评测AI智能体。测试中,Claude 3.7 Sonnet玩超级马里奥表现出色,能发现隐藏奖励,操作丝滑且走得远;GPT - 4o则开局即被小怪杀死,GPT - 4.5反应迟缓;谷歌的Gemini 1.5 Pro和2.0 Flash也各有表现。

点赞(0) 打赏

联系编辑

微信二维码

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部