《Science》杂志：游戏持续驱动着人工智能发展进步_游戏客栈-专注IP资讯爆款时代-专注IP经验分享

《Science》杂志：游戏持续驱动着人工智能发展进步

时间：2023-07-21 编辑：来源：腾云

编者按：2023年4月，中国科学院虚拟经济与数据科学研究中心、中国科学院大数据挖掘与知识管理重点实验室联合发布的《探寻AI创新之路——游戏科技与人工智能创新发展报告》认为，游戏科技已成为人工智能创新发展的重要驱动力，对人工智能相关的图像识别、多智能体博弈、智能机器人、强化学习等17个技术领域的发展起到强驱动作用，未来游戏产业对于人工智能产业的拉动年均增长率约达16%。而7月13日《Science》杂志上最新发表的文章《游戏持续驱动着人工智能发展进步》认为，电子游戏为通用智能工作提供了前景广阔的应用领域，将电子游戏作为研究人工智能的平台，给价值2000亿美元全球电子游戏产业带来了直接的助益。在电子游戏中取得人工智能方面的进展，也将是朝着在现实世界中运行更强大、更灵活的人工智能系统所迈出的重要一步。这两者之间的研究结论不谋而合。以下是《Science》杂志文章的译文内容：

图片说明：2016年3月15日，围棋专业选手李世石在被阿尔法狗击败后复盘。图片来源: 李真文/美联社

几千年来，人类一直把棋盘游戏作为一种愉快的消遣方式进行智力较量。像塞尼特棋这样的游戏，在公元前3500年的埃及坟墓中被视为宝贵的殉葬品，供人们在来世中使用。战略棋盘游戏(如国际象棋和围棋)的技艺逐渐代表了人类智慧的巅峰。因此，这些棋盘游戏被视为衡量机器智能的标尺也就不足为奇了。近年来，计算机在一系列战略游戏中已经超过了人类的技能。尽管最近人工智能(AI)在经典策略游戏中的主导地位似乎预示着游戏对于我们学习人工智能的价值将会终结，但研究人员才刚刚开始着手应对现代电子游戏所带来的更加复杂和多样化的挑战。

游戏提供了一些安全机会，让玩家可以将现实隔离开来练习许多可以应用于真实世界中的技能。因此，不论是对人类还是对智能机器来说，游戏都是宝贵的训练场。从井字棋、国际跳棋、国际象棋或围棋这类传统游戏中可以习得策略推理和解决问题的能力，从双陆棋、桥牌或者扑克中可以习得概率推理的能力。纸牌游戏“花火Hanabi”和强权外交这类社交游戏可以教玩家合作和谈判的技巧。此外，电子游戏为玩家大大拓展了可以训练的技能范围，包括经营企业（柠檬水摊子或游戏）、管理模拟城市的发展，或者参与虚拟赛车比赛。

跳棋、国际象棋和围棋等游戏代表了最简单的游戏类别，因为玩家拥有完美信息(所有玩家都能看到所有信息)，没有任何隐藏的或随机的元素。理论上，游戏可以通过电脑计算出双方最优玩法来“解决”，可以确保获胜或者平局。国际跳棋、四子棋、五子棋、莫里斯九子棋等都是可以通过数学方法解决的游戏。国际象棋和围棋还是没法解决，因为它们拥有无尽的棋局状态。

虽然比不上完全攻克一项游戏，但有一种技能展示依旧可以令人印象深刻、备受瞩目，那就是击败世界上最顶尖的人类棋手，就像1997年深蓝击败了当时国际象棋的世界冠军加里·卡斯帕罗夫一样。2016年，阿尔法狗在围棋比赛中展示了类似的超人表现。在解决围棋问题时，开发了一种新的随机搜索算法，称为蒙特卡罗树搜索(MCTS)，用于处理大型的状态空间。这对各种现实世界的优化问题都大有助益，比如多机器人路径规划和程序内容生成。

在大型游戏中，单靠蒙特卡罗树搜索本身无法对无限可能的未来状态进行采样，从而准确地确定游戏早期和中期棋盘位置的价值。相反，蒙特卡罗树搜索必须辅以对中间博弈状态长期价值的良好估算。值得注意的是，在围棋游戏中，直到使用神经网络来估算中期棋盘位置的价值，人工智能的超人表现才展露出来。神经网络的应用让蒙特卡罗树搜索变得更加准确和高效。

虽然计算机早在1979年就击败了当时的世界双陆棋冠军，比计算机在国际象棋或围棋赢得人类棋手早了几十年，但由于增加了随机机会，双陆棋代表了一种更具挑战性的游戏类别。在机会博弈中，搜索树中的节点值必须代表该博弈状态的期望值，也就是说，对所有可能出现的随机未来博弈的方式进行加权求和。双陆棋程序的表现高调地展示了使用自我博弈和强化学习(RL)来训练计算机程序的强大能力。

像扑克和西洋陆军棋这样的游戏增加了玩家信息不完全的复杂性。虽然扑克玩家知道自己的牌，但他们不知道对手的牌或任何尚未暴露的公共牌。此外，扑克比赛的目标是长远来看可以赢得最多的钱，而不仅仅是赢得某一轮的手牌。因此，AI系统不仅要推断对手当前的牌，还要思考他们的长期下注策略。从博弈论的角度来看，这是一个重复博弈的例子，其中一轮的互动会影响玩家在未来回合中的信念和策略。人工智能系统超人的表现在不完全信息游戏中得到了证明，如西洋陆军棋和无限注德州扑克。然而，有趣的是，桥牌仍然是AI尚未掌握的罕见例子，这可能是因为只有通过团队之间和团队内部的复杂沟通才能实现与搭档的完美协作。

为了研究更普遍的智能“代理人”，在2005年至2016年期间举办了年度竞赛来激励对游戏玩法的研究。这些代理人以正式的游戏描述语言呈现了一个新游戏的逻辑定义，并且不仅要推理如何玩，还要考虑如何在内存中呈现游戏，以便进行搜索和评估。最近，一个叫做MuZero的统一的系统被提出，可以学习玩雅达利、国际象棋、围棋或将棋（日本象棋）。紧随其后的是谷歌开发的游戏玩家系统(Player of Games)，它拓展了游戏集，包括诸如扑克等不完全信息游戏。

尽管设计好的计算机程序可以击败世界上最好的玩家，这些成就令世人瞩目，但策略游戏需要一种特殊的智能。具体而言，这些成功的程序使用了某种形式的引导性深度搜索和状态值估计策略。与人类相比，计算机在搜索方面要快得多，也要彻底得多，而且最近通过使用自我博弈来生成大量专家级数据，并将数据输入作为函数近似器的神经网络。计算机完全可以在状态值估计方面做得更好。

相比之下，电子游戏提出了新型挑战，其中很多挑战促进了“常识性”智能的系统的开发。电子游戏为通用智能工作提供了前景广阔的应用领域，因为它们复杂地模拟了想象中的世界，连同虚构的物理规则，并且通常充斥着各种其他玩家和非玩家角色。它们涉及到许多与制造通用机器人相关的挑战，而不涉及现实世界的复杂性和成本。事实上，开发玩电子游戏的代理人可以让研究人员在相对低风险的环境中，发现和着手解决那些麻烦的突发行为，而不是在关键业务应用中进行。

时至今日，只有为数不多的人工智能系统被开发用于这些领域。在20世纪90年代后期，《雷神之锤》和《毁灭战士》等一类游戏用于探索人工智能系统的威力，这些人工智能系统多是基于规则之上的。到了2015年，情况又有了变化，图像处理在通过神经网络和强化学习之后进展神速，智能代理人已经可以玩一些经典的雅达利游戏了。没过多久，雅达利游戏套件成为人工智能研究人员比较强化学习算法的基准领域。雅达利的游戏套件也暴露出一些有挑战性的情境，比如奖励稀少，这迫使研究人员继续拓展技术的能力。这些进步让研究人员有能力去应对更现代更有挑战性的电子游戏，包括即时战略游戏《星际争霸II》和《刀塔2》，以及高度逼真的赛车游戏《GT赛车》。这三个项目最终都在对顶级电子竞技玩家进行评估，这些玩家拥有大师级或者超人的表现。在所有的成功案例中，机器学习让研究人员达到了手写代码规则无法企及的表现高度。

尽管我们已经大概了解如何为这些特定的游戏创建人工智能，《我的世界》《地平线：西之绝境》或者《塞尔达传说:王国之泪》等开放世界游戏带来的挑战依然没有被攻克。这些游戏要求人工智能系统学习各种技能，并在地形各异、敌人众多以及充满挑战的巨型地图中加以应用。游戏中包含了战斗、旅行、经济和创造性解谜等各种元素。它们拥有复杂的故事线，用自然的语言传达，贯穿游戏的始终，要求玩家利用习得的技巧和知识来取得进展。为这些游戏的一小部分开发智能代理人所需的技术已经成熟，生成式人工智能的最新发展可能帮助解决这些挑战。然而，构建一个能够学习玩这类游戏的通用智能代理人体系架构（尤其是人类时间尺度内），依然是一个很大的挑战。

将电子游戏作为研究人工智能的平台，给价值2000亿美元全球电子游戏产业带来了直接的助益,而且最终会有助于元宇宙的发展。制作出能玩现代电子游戏的智能代理人，给在游戏中创造出一些更有能力、更像人类的非角色玩家带来了更多机会。例如，在线论坛上，关于《GT赛车7》中索尼推出的限时部署的赛车智能代理GT索菲（GT Sophy）的轶事证据表明，玩家们认为跟GT索菲竞技的体验更像是在跟其他技艺精湛的人类比赛，而不是游戏默认的手写代码AI。随着技术进步，游戏社区可以从更加智能的代理人中获益，通过利用它们作为在线游戏中的对手或队友，游戏中的导师，作为发现游戏漏洞的自动测试者，或者由设计者们来确保游戏的平衡。

在现实世界中，游戏通常以体育运动的形式出现。对于可以进行体育运动的机器人的研究，例如现在正在进行的机器人足球比赛——机器人世界杯，还有正在开发的美国印地自动驾驶挑战赛中的自动驾驶赛车，同时推动了人工智能和机器人前沿技术的进步。在这两个例子中，大部分研究都是在模拟环境中进行的，因为保持真实机器人运行的高昂成本和复杂性，使得它们无法成为唯一的实验平台。弥合模拟到真实的差距，这个概念描述了将策略从模拟环境迁移到真实机器人中的挑战，已经成为这些项目的研究主题。幸运的是，在很大程度上，由于几十年来不断改进电子游戏的图像和物理现实性的努力，机器人模拟的逼真程度不断提高，模拟到真实的差距也随之减小。

在电子游戏中取得人工智能方面的进展，也将是朝着在现实世界中运行更强大、更灵活的人工智能系统所迈出的重要一步。与特定用途的机器人相比，通用机器人需要不断适应环境并快速学习新任务的能力。现代的开放世界电子游戏让人工智能研究人员能够专注于基础的人工智能课题，如多任务学习、终身学习、常识推理、人机协作和可解释性，同时将现实世界的传感器和执行器带来的挑战留给机器人学家。随着机器人模拟器变得更加逼真，模拟与真实之间的差距将继续缩小，使游戏和模拟中的技术更有可能转移到现实世界中。

原文链接：

https://www.science.org/doi/10.1126/science.adh8135

参考文献：

1. W.克里斯特等《古埃及游戏：跨越边界的棋盘游戏》（布鲁姆斯伯里公司，2016年出版）

2. N.维纳，《控制论》（约翰威利国际出版集团, 1948年出版）

3. J. 谢弗等，发表于2007年的《科学》杂志第317卷，起始页1518

4. M.坎贝尔、A. J. 霍恩（子）、F. 胡，《人工智能》2002年第134卷，起始页57

5. D.西尔福等，《自然》杂志2016年第529期，起始页484

6. G. 特索罗, 《神经计算》杂志，1994年第6期，起始页215

7. N. 布朗, T. 桑德霍尔姆;《科学》杂志2018年第359卷，起始页418

8. M. 杰内斯雷斯, Y. 比昂森,《人工智能杂志》2013年第34期，起始页107

9. J. 斯赫利特维泽尔等，《自然》杂志2020年第588期，起始页604