人工智能学会团队协作，在《刀塔2》5人对决团战中击败人类

来源：澎湃新闻 | 作者：dlasei | 发布时间：2018-07-03 | 1729 次浏览 | 分享到:

在棋盘上击败人类，对于人工智能（AI）来说已经不是什么新鲜事。现在，顶级学者和科技公司想要利用AI在电子游戏中挑战人类。

当地时间6月25日，由硅谷“钢铁侠”马斯克创立的人工智能非营利组织OpenAI在自己官方博客上宣布：他们开发的AI已经能够组队在经典战斗竞技类游戏《刀塔2》（Dota2）中，进行5V5对决，并战胜排名前1%的业余爱好者。

对OpenAI有所了解的人，肯定还记得在去年8月份，这个研究机构开发的AI已经在《刀塔2》1V1的比赛中，打败顶尖高手。但这次，OpenAI升级了。在5V5的游戏中，人工智能可以像人类一样去做更多的团队协调和长期规划。

在这次的对决中，与AI对战的是来自OpenAI的员工，并非顶尖职业玩家，而且AI也只会使用游戏所提供的115位可选英雄中的5位，并且人类玩家不能使用真假眼，魔瓶等道具。虽然有各种限制，但OpenAI在博客称，他们构建的AI将在今年秋天参加《刀塔2》的顶级赛事，与5名专业玩家一较高下，瓜分4000万奖金。

如果人类构建的AI系统能够在电子竞技游戏中取胜，研究人员们有理由相信，未来可以利用这些系统帮助人类解决现实世界中的问题，例如管理城市的交通基础设施等。

“这是一个令人兴奋的里程碑，因为它的确是涉及到了帮助人类解决实际应用问题。这意味着，如果你需要模拟一个现实问题，只要你能进行大规模运算，那就没什么阻碍。”OpenAI的联合创始人兼首席技术官Greg Brockman在接受媒体采访时称。

AI每天训练量相当于人类玩180年游戏

OpenAI开发的系统名为“ OpenAI Five”。如果独立的看这种算法，其实并没有什么特别的，就是一种学会了如何玩《刀塔2》的神经网络，此前OpenAI曾有过在一对一比赛中胜过人类玩家的先例。这一次的不同点，或者说厉害之处在于，5个算法间需要学会如何与“队友”协作，并制定策略。

OpenAI的博客称，通过自我对抗学习，OpenAI Five每一天的训练量相当于人类玩180年的游戏时间。他们在几个月的时间里都以这种速度进行了训练。

“一开始，它完全是随机地，在地图上游荡。然后，几个小时后，它开始提高基本技能。”Brockman说。如果说一个人在玩了12000到20000小时的游戏后会成为一名专业人士，那就意味着OpenAI的算法每天积累的游戏经验是一个人一生积累经验的100倍。

在硬件上，OpenAI Five使用256块GPU、12.8万个CPU，核心使用近端策略优化（Proximal Policy Optimization）方法进行训练，这是OpenAI在去年建立的单独《刀塔2》系统上的扩增。

GPU即图像处理器。理解GPU和CPU之间区别的一种简单方式是比较它们如何处理任务。CPU由专为顺序串行处理而优化的几个核心组成，而GPU则拥有一个由数以千计的更小、更高效的核心（专为同时处理多重任务而设计）组成的大规模并行计算架构。

如此强大的训练量，一方面证明了机器学习算法和能处理海量数据的最新芯片的强大。但另一方面，这也提醒我们，AI系统实际上有多么的不智能。如果人类花上上千年时间仅学习一个电竞游戏，那人类也就不会成为现在的物种了。

人工智能也懂相互配合

与围棋、国际象棋等技术战略类游戏不同，《刀塔》这种多人联机在线竞技类游戏有着更为复杂的游戏机制，还需要队友间完美的配合才能取得最终的胜利。而这次的5位AI“玩家”完美的证明了人工智能也懂得相互配合。

《刀塔》的规则非常复杂，玩家们使用的英雄有各自的强项、弱项、技能和属性。在游戏里，玩家需要获得金钱，购买和升级装备，思考战略，还要和对手厮杀。这款游戏已经开发了十几年，拥有成百上千的代码行实现游戏逻辑。而且游戏每两周更新一次，环境语义一直在变。

OpenAI Five通过强化学习，与自己的不同版本对战来学习游戏策略。随着时间推进，程序习得的策略与人类玩家所使用的策略很类似，比如通过 “打钱” 找到获取金钱的方法，以及采用游戏中特定的战略角色，并学习如何分路，支援队友等策略。

同时，OpenAI Five还拥有计算机的优势，反应时间比人类短，不会错过点击，可以即时和精确地获取数据，如物品清单、英雄的健康状况以及地图上物体之间的距离。而人类玩家必须手动检查或者凭本能判断。

“我们从比赛中能感受到，AI算法间的协作意图似乎是一种非常自然的本能表现。”Brockman说。在《刀塔2》5V5的团队赛中，他们甚至尝试了用一位人类玩家顶替5位“AI玩家”中的一个，而这位替补上场的人类玩家的感觉是：“我能体会到AI队友对我的支援！”

值得一提的是，OpenAI Five作为相互独立的5种算法，它们之间并不存在主动交流机制，除非它们处于同一局游戏中。

《刀塔2》中，AI掌握了哪些技能

在一个实时的《刀塔2》5V5游戏中，每个玩家控制一个英雄。对于AI来说，就需要掌握以下技能：一是长线策略。《刀塔》游戏平均每秒30帧，一场时长45分钟，大概8万tick（编注：在《刀塔2》的游戏中，每个tick，意味着在玩家所运行的游戏能接受的情况下,玩家每秒会接收30次其他玩家的数据）。大部分操作（例如操纵英雄移动）都有单独的小影响，但一些个体行为可能会影响到游戏战略。此外，还有一些策略可能会终结整场游戏。

OpenAI Five的做法是每4帧观察一次，产生了2万个决策。相比之下，国际象棋一般在40步之前就结束了，而围棋大概在150步，但这些游戏每一步都很有策略性。二是局部可观测状态。在游戏中，己方单位和建筑的视野都有限。地图的其他部分是没有视野的，可能藏有敌人和敌方策略。高手玩家通常需要基于不完整数据做推理，以及建模敌方意图。而国际象棋和围棋都是完全信息博弈。三是高维、持续的行为空间。在游戏中，每个英雄能采取数十种行为，而且许多行为要么面向敌方单位，要么点地移动位置。OpenAI Five把这个空间离散到每个英雄17万种可能的操作；不计算连续部分，每tick平均有1000个可能有效行为。而国际象棋的行为数量平均是35，围棋为250。四是高维、连续的观察空间。《刀塔》是在一张包含十个英雄、二十几个塔、数十个NPC单位（编注：NPC一般指的是游戏中那些由电脑控制的路人）的地图上操作的游戏，此外还有神符、树、眼位等。通过与《刀塔2》运营公司Valve的合作，OpenAI Five模型把游戏视为2万个状态，也就代表人类在游戏中可获取到的所有信息。相比之下，国际象棋代表了约为70个枚举值（8x8的棋盘，6类棋子和较小的历史信息）。围棋大概有400个枚举值（19x19的棋盘，黑白2子，加上Ko）。

匹兹堡卡内基梅隆大学的研究员Noam Brown说：“《刀塔2》是一个极其复杂的游戏，能打败强大的业余玩家就已经很不容易了，而且，处理这种大型游戏中的隐藏信息是一个很大的挑战。”

他认为，只要有足够的时间，人类可能就会找出人工智能团队的游戏风格弱点。而对于AI来说，下一个重大挑战将是涉及到交流的游戏，例如《强权外交》和《卡坦岛》，在这些游戏里，玩家需要平衡合作与竞争才能胜利。

上一篇：爱因斯坦真的说过这些话？连“上帝不掷骰子”都不是

下一篇： 200亿美元投资收获首块9公斤玻璃

联盟快讯

【会员招募】大连市战略性新兴产业联盟开始招募会员啦！

2023-10-26
大连市战略性新兴产业联盟参与央地合作实地调研

2023-10-09
大连市战略性新兴产业联盟参与央地合作交流，助力区域经济高质量发展

2023-07-13
联盟一行拜访辽宁师范大学七鳃鳗研究中心

2023-03-29
乡村振兴服务行——大连中集特种物流装备有限公司

2023-03-21
联盟一行拜访大连天正实业有限公司

2022-08-26
大连市战略性新兴产业联盟——中日发展合作促进中心负责人出席中日产业合作服务创新平台筹建工作会议

2022-07-22
中日（大连）地方发展合作示范区-高端装备制造业对日合作对接交流会召开

2021-07-09
联盟赴庄河市多家企业调研，加快区域品牌建设落地

2021-02-08
凝心聚力创先行战新联盟助力大连“城市大脑”建设

2020-08-18
联盟创新中心成立为创新企业提供全周期服务

2019-12-20
联盟2019年会员大会成功召开

2019-12-20
联盟与日本价值工程协会在科创大厦签署合作协议

2019-08-09
双创周 | 东北亚创新版块之走进双创平台

2019-06-18
双创周 | 东北亚创新版块之资本国际合作研讨会

2019-06-18
大连市2019年“双创周”活动走进创投机构

2019-06-14
联盟出席 “2019年全国大众创业万众创新活动周” （大连分会场）签约仪式

2019-06-14
联盟携手监事长单位 —大连赛伯乐创业投资管理有限公司共同承办

2019-06-14
联盟到大连雅立峰生物制药有限公司开展调研

2019-06-04
碰撞新思想把握新商机 ——生物产业专题研讨会成功举办

2019-05-31
加强校企沟通交流，促进共同发展 ——辽宁师范大学部分师生走进大连市战略性新兴产业联盟

2019-04-16
市发改委门户网站于近日开通联盟网站友情链接

2019-03-27
农产品区域品牌战略会议成功举办

2019-02-28
联盟副理事长单位码头网联合大连海事大学申请国家级工程研究中心成功获批！

2019-02-26
海洋食品企业互联网化发展研讨会成功举办

2019-02-26
大连市战略性新兴产业——数字经济主题论坛成功举办

2019-01-24
关于公示2018年度大连市产业技术创新战略联盟试点单位的通知

2019-01-16
发挥联盟优势助推产业集聚发展

2019-01-07
发挥联盟优势助力“一带一路”建设

2018-12-18
联盟职场训练营计划之华晨篇

2018-12-13

工业和信息化部辽ICP备16011273号-1

主管：大连市发展和改革委员会主办：大连市战略性新兴产业联盟

地址：大连市西岗区胜利路100号槐花大厦1706 电话：0411-66873833 邮箱：DL66873833@163.com