现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(2)

2018-08-23 15:30:07

AlphaGo之后，需要接棒手

[原创文章：www.11jj.com]

我们将时间拨回到 2016 年…… [原创文章：www.11jj.com]

研究游戏中的 AI 一直是机器学习领域的热门课题：一来，设计游戏的初衷是娱乐和挑战，这种复杂性和趣味性使其成为 AI 的理想选择；二者，游戏提供了丰富的人机交互机会；再者，因为游戏非常流行，自然创造出了更多的数据作为训练 AI 的养分。

过去几年，游戏研究为机器学习领域带来了重大的突破：2015 年，谷歌的 DeepMind 在科学杂志《自然》上发表了一项最新研究：他们开发出了深度强化学习（具体为 Deep Q Network）来训练 AI 玩家，在 Atari 2600 的一系列游戏中，表现接近甚至超过了人类的水平。

到了第二年，DeepMind 的 AlphaGo 横空出世，基于蒙特卡洛树搜索和强化学习，它在和韩国围棋大师李世乭的较量中以 4：1 胜出；又过一年，AlphaGo 进化为 AlphaZero，不依靠人类知识，紧靠自我博弈，在国际象棋、将棋和围棋这三种棋类游戏中实现超过人类的水准。

现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(2)

李世乭

一盘棋，在全世界刮起了一股 AI 热潮，但这股热潮迟早会冷却。世界需要新的刺激保持对 AI 的好奇心和热忱，从业者们也要寻求新的挑战探索 AI 的边界。

围棋虽然被攻破了，但在万千游戏世界里，留给研究员们的空间依然很大：从牌类游戏，第一人称游戏，雅塔利游戏系列，到赛车游戏，策略游戏，沙盒游戏……DeepMind 和 Facebook 便在星际争霸（StarCraft）上发力，星际争霸被认为是电子游戏世界里最难被攻克的游戏之一，至今 DeepMind 的表现一直不太理想，也促使了他们在去年和暴雪公司开源了星际争霸 2 的机器学习..。

在这样的背景下，OpenAI 的 Dota AI 项目，被予以了厚望。

2016 年 11 月 5 日，OpenAI 决定开发可以学习 Dota 2 的人工智能体。项目组由 OpenAI CTO Greg Brockman 带领。

现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(2)

Greg Brockman

在此之前，OpenAI 并不知道研究什么游戏，只是大概有个标准：游戏要足够复杂，且十分流行，有丰富的 API 可以使用，能在 Linux 上运行。他们在美国直播.. Twitch 上搜索了所有的游戏，最终将目标落在了 Dota 2 上。

Dota，全名 Defense of The Ancients，原本是从竞技游戏《魔兽争霸》系列孵化出的一张多人在线战术竞技地图，如同这款游戏的名字一样，Dota 的胜利条件是摧毁敌方的 Ancient（水晶）。

2005 年，Dota 第一版地图 6.01 版本正式发布，Dota 背后最核心的地图程序员冰蛙（IceFrog）多年来维护和更新 Dota 地图。2013 年，冰蛙联合游戏开发公司 Valve 发行了 Dota 2，完全独立于魔兽争霸，成为了一款真正的竞技游戏。

现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(2)

Dota 6.67C

Dota 2 符合 OpenAI 的所有要求：

首先，它十分复杂。Dota 2 有 115 个可用英雄，每个英雄 1-10 个技能不等（卡尔，说的就是你），上百件物品，20 几个塔、数十个 NPC，5v5 组成天辉和夜魇两派，在三条线路上互相博弈，从中衍生出包括对线、打野、Gank、团战、插眼等不同的战术和安排。

OpenAI 在官方博客上列出了 Dota 2 和棋类游戏的对比数据：Dota 2 每 tick 平均产生 1000 个可能有效行为，相比之下，国际象棋是 35 个，围棋是 250 个；通过 Valve（Dota 2 的运营公司）的 bot API，OpenAI 把 Dota 2 视为 2 万个状态，也就代表人类在游戏中可获取到的所有信息。国际象棋代表大概 70 个枚举值，围棋大概有 400 个枚举值。

其次，Dota 2 很流行。这款游戏在全球有上千万的玩家，虽然数量上比不过《英雄联盟》或者如今的「吃鸡」和「堡垒」，但它由于历史相对久远（Dota 在 2005 年发行），又基于魔兽争霸的史诗背景，使得这款游戏有着很深的底蕴和口碑。

再者，Dota 2 有专业电竞赛事。每年 8 月，全世界的顶级玩家会来到北美参加 Dota 2 国际邀请赛 The International，这是由 Valve 举办。去年 TI7 的奖金池高达 2000 多万美元。

起初，OpenAI 并非着眼于击败顶尖的人类玩家，如果能使用当前最前沿的机器学习算法，开发出一个智能的、会玩 Dota 的虚拟机器人（下文用 bot 代替），就已经是莫大的突破了。没想到，路越走越远。

我们可能要失败了

2017 年年初，OpenAI 开发出了他们自认为最好的一款基于规则编写的脚本 bot。这要多亏于项目组的前研究员、如今对冲基金 DE Shaw Group 的 SVP Rafal Jozefowicz，Rafal 从没有打过 Dota，但他每天都看比赛回放，和其他成员聊 Dota 2 英雄是怎么放技能、怎么推塔、怎么买装备。

研究员们把能想到的规则都编写了进去，脚本 bot 也确实能打赢一些业余玩家，但面对稍强一些的玩家就毫无胜算了。

OpenAI 决定再进一步，把硬编码的部分取出来，转而用机器学习代替。他们使用强化学习（reinforcement learning）让 bot 从头开始学习。结果，他们发现在短时间里根本无法在 5v5 的环境里实现，太困难了。

研究员于是退而求其次，先从一个小游戏下手，然后逐步扩大游戏环境，这个小游戏叫 Kiting。

Kiting 是 Dota 里的一个技巧，一般出现在对线期：你攻击一下敌方单位然后通过走位让它打不到你，来来..地消耗敌方的血量。OpenAI 基于 Dota2 创造了一款小游戏：在一个环形孤岛上，让训练好的 bot 在岛上去通过 Kiting 的方式和脚本 bot，保证自己不被打到的同时将敌方单位击杀即算获胜。

听起来挺简单的吧？实际操作却根本不是一回事儿，OpenAI 的 bot 在 Kiting 里始终打不赢人类玩家。OpenAI 的 bot 始终沿着同样一种轨迹训练，但是人类往往不按套路出牌，这让实验结果一直差强人意。

「我们可能要失败了，」这是 OpenAI 在当时得出的结论，距离项目启动已经小半年了，进度却大幅度落后，不少研究员有些灰心。此时，OpenAI 决定走到哪儿算哪儿，即使是发布最新的研究成果也依然有价值。

结果转机出现了。研究员开始将训练环境里随机化，让英雄时而走的快，时而走的慢，时而因为故障而停滞不前。这个方法很快收到了奇效，随机性使得 bot 的强化学习策略网络非常鲁棒。2017 年 3 月 1 日，OpenAI 训练出来的小黑（黑暗游侠）已经可以在 Kiting 中击杀脚本编码的小牛（撼地神牛）。

上一篇：用户流失亏损加剧美图的梦想为何碎了一地？
下一篇：话题 | 你觉得微信、QQ通话未来能取代手机通话吗？

小编推荐

1
数字易经0到9代表什么卦（数字易经测算）
大家好，小伟今天来为大家解答数字易经0到9代表什么卦以下问题，数字易经测算很多人还不知道，现在让我们一起来看看吧！1、数字1代表坎水、数
2
苹果手机呼叫转移怎么设置（苹果手机呼叫转移怎么设置无法接通）
大家好，小乐今天来为大家解答苹果手机呼叫转移怎么设置以下问题，苹果手机呼叫转移怎么设置无法接通很多人还不知道，现在让我们一起来看看
3
中国红十字会标志简笔画（中国红十字会标志简笔画）
大家好，小豪今天来为大家解答中国红十字会标志简笔画以下问题，中国红十字会标志简笔画很多人还不知道，现在让我们一起来看看吧！1、保护性
4
八年级下册语文书人教版电子书（八年级下册语文书人教版电子书2022）
大家好，小美今天来为大家解答八年级下册语文书人教版电子书以下问题，八年级下册语文书人教版电子书2022很多人还不知道，现在让我们一起来看
5
古伊尔（魔兽古伊尔）
大家好，小丽今天来为大家解答古伊尔以下问题，魔兽古伊尔很多人还不知道，现在让我们一起来看看吧！1、古伊尔是魔兽世界里面部落的一个酋长
6
唯一极值点问题
在高档数学的进修中，我们经常会碰着独一驻点的问题，在非常宽松的前提下，这个独一的驻点也就是极值点。今天我们稍微改变一下前提，商量如
7
三公九卿制是什么（三公九卿制是什么朝代的制度）
大家好，小乐今天来为大家解答三公九卿制是什么以下问题，三公九卿制是什么朝代的制度很多人还不知道，现在让我们一起来看看吧！1、三公九卿
8
订房网哪个平台好（订房什么网最便宜）
大家好，小娟今天来为大家解答订房网哪个平台好以下问题，订房什么网最便宜很多人还不知道，现在让我们一起来看看吧！1、携程、美团、艺龙、

现场报道 | 面对最菜TI战队，OpenAI在Dota2上输的毫无还手之力(2)

热门文章

小编推荐