现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(4)

2018-08-23 15:30:07

他们将 Kiting 里的策略放到了 Dota 2 的 1v1 模式中，同样收到了效果。Bot 开始学会补兵、学会卡兵、能使用各种技能了。这给予了 OpenAI 极大的信心：只要使用同样的算法，然后加码计算能力，或许有一天，我们能做出 5v5 的 AI。

[原创文章：www.11jj.com]

Jonas Schneider 回忆说，直到 2017 年的 4、5 月份，他都依然可以轻松地击败 AI，但随着 OpenAI 加入了更多的算力对 bot 进行训练，它的水平开始突飞猛进。6 月初，它打赢了 1500 分的玩家。两个月后，Dota2 1v1 大神、2015 年 The International 冠军队伍成员 Sumail 也败给了 OpenAI。

[转载出处：www.11jj.com]

在这个过程中，著名的美籍韩裔解说员 William「Blitz」Lee 对 OpenAI 帮助很大。OpenAI 当时找到了 Blitz，希望他能予以一些指导，要知道，并不是每一位 Dota 玩家都欣赏 OpenAI 的做法，有人觉得这群科学家在耍花招，有人不看好，但 Blitz 从一开始就被 OpenAI 的成果所吸引，据 OpenAI 研究员回忆，Blitz 在和 bot 打完一场 1v1 后，说了这么一句话：

「这将从此改变 Dota 玩家如何 1v1 的方式。」

接下来的故事，大家都知道了：在去年 TI7 上的 Dota2 一对一表演赛中，由 OpenAI 设计的 bot 打败了 Danylo "Dendi" Ishutin，Dendi 在职业生涯中已经赢得 73 万美元奖金。OpenAI 的 bot 在第一场比赛开始约 10 分钟就打败了 Dendi。在第二场比赛中 Dendi 放弃，并拒绝进行第三场比赛。

OpenAI 火了。从机器学习这个圈子里的明星研究机构，变成了全世界关注和热议的焦点。AI 攻破 Dota 1v1 成功霸屏去年的 TI7，一场表演赛，风头盖过了 TI7 上所有的正式比赛。多数人振奋，惊喜，难以置信，也有人怀疑和不甘心，五味杂陈。

现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(4)

OpenAI 的谷歌搜索趋势

1v1 的胜利为 OpenAI 解开了许多谜团，其中最重要的是：强化学习在如此复杂、需要长期策略的游戏环境下是否依然奏效？

没有人不会质疑 AI 学习某一种技能的能力，比如正反补，比如释放技能，这都很简单。但在复杂的环境里将所有的技能、走位、对线等串在一起，在 1v1 中战胜世界顶尖玩家，这是重大的突破，毋庸置疑。

不过，许多人不知道的是，人类玩家在这之后的和 OpenAI 的 1v1 单挑中还是赢过一次的。去年 9 月 7 日，来自德国的 Dota2 选手 Dominik "Black" Reitmeier 在最后时刻完成皮血反杀，取得 2：1 的胜利。这是人类第一次在完全版 AI 面前取胜，看把 Black 激动成什么样了。

OpenAI 不是 AlphaGo，至少，它不是无敌的。

现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(4)

比赛结束后，OpenAI CTO Brockman 在 TI7 上公布了另外一个令人振奋的消息，「下一步是 5V5。我们明年 TI 再见！」

解决 5V5 的三个核心问题

话虽然放出去了，但将 1v1 的成功在 5v5 上复制，OpenAI 没有十足的把握。在真正开始训练 bot 前，研究团队做了大量的前期准备工作：

比如最大化地利用 CPU 和 GPU 来加速大规模训练，时间就是金钱，OpenAI 最终使用了 128,000 CPU 核和 256 个 GPU 来支持算力，让 AI 每天自我博弈成千上万盘游戏，每天累计游戏时间达到 180 年（限制 AI 游戏时间什么的是不存在的）；

他们摒弃了 Kubernetes 而自主开发了一个专门用于强化学习的训练系统 Rapid，能够在分布式系统中快速地复制多个机器上训练出来的结果和数据，然后更新训练参数；

他们使用了 Gym 作为训练环境。Gym 是 OpenAI 自主开发的用于强化学习的训练环境，包含了 OpenAI Five 所需要的各种程序和后台编码。

在完成部署后，OpenAI 需要解决三个核心问题：长线操作、奖励机制、和团队协作。

为了训练每个英雄，OpenAI 使用了两种机器学习技术：长短期记忆网络（LSTM）和近端策略优化（Proximal Policy Optimization）。

为什么使用 LSTM 其实很好理解：打 Dota2 需要记忆，敌方英雄的每一个当前行为都会对之后的行为产生影响。LSTM 是一种循环神经网络（RNN），它比普通的 RNN 更适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM 有一个叫做 Cell 的元素，能够分辨出输入的信息是否有用，是否需要记住。

每一个 bot 的神经网络包含一个单层的、拥有 1024 单位的 LSTM，观察游戏的局势然后做出相应的行为。下图这个互动演示就是可以让你理解每个 bot 是如何做出指令的，这些画面就是 Dota 2 的 API 所观察到的。

以图中右下角的毒龙（冥界亚龙）释放二技能「毒液」为例，他要做出这个行动需要四个指标：行为（包括移动、攻击、释放技能、使用物品），目标英雄、技能释放的位置、以及什么时候释放。OpenAI 最终将 Dota2 世界表征为一个由 2 万个数值组成的列表。

现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(4)

Bot 的自我学习则依靠了近端策略优化，这是 OpenAI 在 2017 年提出的一种强化学习算法，被证明比一般的策略梯度法所需更少的数据和调参来获得更好的效果。OpenAI Five 和早期的 1v1 bot 都是从自我对抗中学习，以随机参数开始，不使用人类的搜索或引导程序。

为了避免「策略崩坏」，智能体在 80% 的游戏中通过自我对抗进行训练，而在 20% 的游戏中与过去的智能体进行对战。

奖励机制则牵涉到两个方面：一是每个行为对于最终影响游戏结果的权重。比如反补的权重是 0.2，正补是 0.16；推掉高地塔的权重 1.0，但是推掉水晶外的两座外塔的权重只有 0.75，和推掉第一座外塔的权重一致，被击杀的权证则为负数。

另一个是每个神经网络的训练以最大化未来奖励的指数衰减（exponential decay factor）和为目标。这是一个相当重要的参数，决定了 bot 究竟是关注长期的奖励还是短期的奖励。如果γ太小，那么 bot 就只关注眼前比如打钱的利益；γ太大，那么它将无限关注未来的奖励，对前期训练 bot 没有一点好处。

上一篇：用户流失亏损加剧美图的梦想为何碎了一地？
下一篇：话题 | 你觉得微信、QQ通话未来能取代手机通话吗？

小编推荐

1
数字易经0到9代表什么卦（数字易经测算）
大家好，小伟今天来为大家解答数字易经0到9代表什么卦以下问题，数字易经测算很多人还不知道，现在让我们一起来看看吧！1、数字1代表坎水、数
2
苹果手机呼叫转移怎么设置（苹果手机呼叫转移怎么设置无法接通）
大家好，小乐今天来为大家解答苹果手机呼叫转移怎么设置以下问题，苹果手机呼叫转移怎么设置无法接通很多人还不知道，现在让我们一起来看看
3
中国红十字会标志简笔画（中国红十字会标志简笔画）
大家好，小豪今天来为大家解答中国红十字会标志简笔画以下问题，中国红十字会标志简笔画很多人还不知道，现在让我们一起来看看吧！1、保护性
4
八年级下册语文书人教版电子书（八年级下册语文书人教版电子书2022）
大家好，小美今天来为大家解答八年级下册语文书人教版电子书以下问题，八年级下册语文书人教版电子书2022很多人还不知道，现在让我们一起来看
5
古伊尔（魔兽古伊尔）
大家好，小丽今天来为大家解答古伊尔以下问题，魔兽古伊尔很多人还不知道，现在让我们一起来看看吧！1、古伊尔是魔兽世界里面部落的一个酋长
6
唯一极值点问题
在高档数学的进修中，我们经常会碰着独一驻点的问题，在非常宽松的前提下，这个独一的驻点也就是极值点。今天我们稍微改变一下前提，商量如
7
三公九卿制是什么（三公九卿制是什么朝代的制度）
大家好，小乐今天来为大家解答三公九卿制是什么以下问题，三公九卿制是什么朝代的制度很多人还不知道，现在让我们一起来看看吧！1、三公九卿
8
订房网哪个平台好（订房什么网最便宜）
大家好，小娟今天来为大家解答订房网哪个平台好以下问题，订房什么网最便宜很多人还不知道，现在让我们一起来看看吧！1、携程、美团、艺龙、

现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(4)

热门文章

小编推荐