谷歌、OpenAI争相让旗下AI玩《精灵宝可梦》游戏：衡量AI真正实力

时间：2026-01-25 20:51:45 来源：快看科技资讯

体育资讯01月25日称据科技媒体 Tom's Hardware 今天报道，当今时代我们有无数种跑分测试和评测方法来衡量 AI 的聪明程度与能力，但最近一种相对小众的测试方法也在 AI 圈内引发关注。

目前，谷歌、OpenAI 和 Anthropic 等 AI 巨头正在让自家模型游玩经典的《精灵宝可梦》系列游戏，以此来评估 AI 性能表现。

Anthropic 公司 AI 部门负责人 David Hershey 对此表示：“《精灵宝可梦》之所以能吸引机器学习社区关注，是因为它不像《Pong》等简单游戏那样受限。这种游戏对电脑程序来说非常具有挑战性”。

Hershey 从去年开始在 Twitch 平台进行直播，每天的日常就是用公司自产模型 Claude 玩《精灵宝可梦》。这名负责人平时的工作就是帮助客户部署 AI，因此他开直播本质上也是在测试模型。

这名负责人给自家 AI 直播游戏的做法也启发了不少自由开发者，他们也陆续搞了“Gemini 玩《宝可梦》”“GPT 玩《宝可梦》”等类似的直播节目。

后来，这些直播甚至被谷歌和 OpenAI 注意到，开发团队有时还会客串直播间亲自调整模型参数，在官方力量注入下，Gemini 和 GPT 已经成功通关了 Gam Boy 时代的《宝可梦蓝》，目前已在挑战续作；而 Claude 至今还没打通任何一个版本。

至于为何要用《宝可梦》评估 AI 性能？Hershey 对此解释道：“因为它给我们提供了直观的方法观察模型表现，还能用量化指标评估性能”。

通常来讲，玩家在《宝可梦》系列游戏中需要升级、训练已有 / 刚抓的宝可梦，还要打败道馆馆主来捕捉新的宝可梦。这种游戏流程并非线性，而是充满着判断和取舍。

而且，玩家还要经常在游戏中做出选择：是先冒险挑战强大的训练家以获取珍稀宝可梦，还是稳扎稳打造出一支实力均衡的队伍。

显然，人类非常擅长做此类决策，这也是游戏的乐趣所在，但对于 AI 来说，这是一场关乎逻辑推理、风险评估以及长期规划能力的综合考验。

因此研究人员会深入剖析 AI 在游戏里的决策方式，深入理解模型的能力边界。

Hershey 还会将 AI 玩《宝可梦》的结果分享给客户以改进控制框架（IT之家注：harness），帮助他们提升算力使用效率，让模型更高效运转。

标签游戏衡量实力真正精灵利物浦vs沃特福德篮网vs黄蜂南安普顿vs水晶宫广厦vs北京那不勒斯vs国际米兰

谷歌、OpenAI争相让旗下AI玩《精灵宝可梦》游戏：衡量AI真正实力

相关信息

下个月回归大司马本人确认2月份开播：最近就会签合同！

下一场对阵WBG，Poppy教练：我们做好游戏运营的话能赢下

“停止杀死游戏”请愿活动已确认130万有效签名远超欧盟公民倡议所需

如果说LCK里未来比现在更令人期待的选手是Peyz，那LPL的是

猎鹰遭完全解读！上帝沙2游刃有余带队打爆B区PV先拿赛点

永恩还是憋玩了！Diable卢锡安关键输出找回场子BFX扳平比分

谷歌、OpenAI争相让旗下AI玩《精灵宝可梦》游戏：衡量AI真正实力

电竞博主谈U23国足：客观存在的巨大差距也不是靠打个鸡血就能弥补的

更看重对线能力的版本！从目前的比赛来看，吧友们觉得新版本是哪支队伍的“定制版本”

媒体人看U23开局20分钟国足02落后：不好的回忆开始袭击我了

相关录像

01月26日NBA常规赛热火太阳全场录像

01月25日CBA常规赛新疆辽宁全场录像

01月25日NCBA常规赛青岛广州全场录像

01月25日CBA常规赛浙江上海全场录像

01月25日CBA常规赛福建四川全场录像

01月25日CBA常规赛宁波江苏全场录像

01月25日CBA常规赛山东广厦全场录像

01月25日CBA常规赛深圳同曦全场录像

01月25日WCBA常规赛上海女篮四川女篮全场录像

01月25日NBL常规赛合肥狂风VS山东蜜獾全场录像

相关集锦

快船全员均得分主场37分大胜篮网！小卡28+5哈登三节19+6+8

热火送太阳连败阿德巴约22+7狄龙26分布克&杰伦格林缺阵

鹈鹕拒逆转胜马刺锡安24+10+4萨迪克贝24+10文班16+16

猛龙送雷霆赛季第10败巴恩斯关键封盖+前场板亚历山大24+6

勇三疯！勇士送森林狼5连败库里26+7+4断爱德华兹32+11

01月26日NCAA常规赛俄勒冈大学5772华盛顿大学集锦

活塞8人上双送国王5连败坎宁安29+11威少13+4

辽宁末节仅4分负新疆遭四连败赵继伟缺阵王岚嵚9中1吴冠希18+8

深圳23分大胜同曦迎来4连胜！史密斯25+8+7郭昊文24+6+5

领先30分到赢6分山东终结广厦7连胜陈林坚18分孙铭徽12中2

热门TAG