AI智能体评测有新情况

米塔之家 · 2025-03-04 09:57:35

AI大神Karpathy对当前LLM评估基准提出质疑，认为存在评估危机。UCSD Hao AI Lab开源 “游戏智能体”，用超级马里奥等游戏评测AI智能体。测试中，Claude 3.7 Sonnet玩超级马里奥表现出色，能发现隐藏奖励，操作丝滑且走得远；GPT - 4o则开局即被小怪杀死，GPT - 4.5反应迟缓；谷歌的Gemini 1.5 Pro和2.0 Flash也各有表现。

点赞(0) 打赏

AI智能体评测有新情况

DeepSeek V4发布后，全球Agent换上“中国大脑”

【京东科技与元隆雅图旗下UOVAMETA达成战略合作】

蘑菇车联迎前滴滴高管付强任总裁，加速 AI 商业化落地

Perplexity CEO 告别 PPT：用 AI 重构投资者路演