现场报道 | 面对最菜TI战队,OpenAI在Dota2上输的毫无还手之力(2)

AlphaGo之后,需要接棒手

[原创文章:www.11jj.com]

我们将时间拨回到 2016 年…… [原创文章:www.11jj.com]

研究游戏中的 AI 一直是机器学习领域的热门课题:一来,设计游戏的初衷是娱乐和挑战,这种复杂性和趣味性使其成为 AI 的理想选择;二者,游戏提供了丰富的人机交互机会;再者,因为游戏非常流行,自然创造出了更多的数据作为训练 AI 的养分。

过去几年,游戏研究为机器学习领域带来了重大的突破:2015 年,谷歌的 DeepMind 在科学杂志《自然》上发表了一项最新研究:他们开发出了深度强化学习(具体为 Deep Q Network)来训练 AI 玩家,在 Atari 2600 的一系列游戏中,表现接近甚至超过了人类的水平。

到了第二年,DeepMind 的 AlphaGo 横空出世,基于蒙特卡洛树搜索和强化学习,它在和韩国围棋大师李世乭的较量中以 4:1 胜出;又过一年,AlphaGo 进化为 AlphaZero,不依靠人类知识,紧靠自我博弈,在国际象棋、将棋和围棋这三种棋类游戏中实现超过人类的水准。


现场报道 | 面对最菜TI战队,OpenAI在Dota2上输的毫无还手之力(2)

李世乭

一盘棋,在全世界刮起了一股 AI 热潮,但这股热潮迟早会冷却。世界需要新的刺激保持对 AI 的好奇心和热忱,从业者们也要寻求新的挑战探索 AI 的边界。

围棋虽然被攻破了,但在万千游戏世界里,留给研究员们的空间依然很大:从牌类游戏,第一人称游戏,雅塔利游戏系列,到赛车游戏,策略游戏,沙盒游戏……DeepMind 和 Facebook 便在星际争霸(StarCraft)上发力,星际争霸被认为是电子游戏世界里最难被攻克的游戏之一,至今 DeepMind 的表现一直不太理想,也促使了他们在去年和暴雪公司开源了星际争霸 2 的机器学习..。

在这样的背景下,OpenAI 的 Dota AI 项目,被予以了厚望。

2016 年 11 月 5 日,OpenAI 决定开发可以学习 Dota 2 的人工智能体。项目组由 OpenAI CTO Greg Brockman 带领。


现场报道 | 面对最菜TI战队,OpenAI在Dota2上输的毫无还手之力(2)

Greg Brockman

在此之前,OpenAI 并不知道研究什么游戏,只是大概有个标准:游戏要足够复杂,且十分流行,有丰富的 API 可以使用,能在 Linux 上运行。他们在美国直播.. Twitch 上搜索了所有的游戏,最终将目标落在了 Dota 2 上。

Dota,全名 Defense of The Ancients,原本是从竞技游戏《魔兽争霸》系列孵化出的一张多人在线战术竞技地图,如同这款游戏的名字一样,Dota 的胜利条件是摧毁敌方的 Ancient(水晶)。

2005 年,Dota 第一版地图 6.01 版本正式发布,Dota 背后最核心的地图程序员冰蛙(IceFrog)多年来维护和更新 Dota 地图。2013 年,冰蛙联合游戏开发公司 Valve 发行了 Dota 2,完全独立于魔兽争霸,成为了一款真正的竞技游戏。


现场报道 | 面对最菜TI战队,OpenAI在Dota2上输的毫无还手之力(2)

Dota 6.67C

Dota 2 符合 OpenAI 的所有要求:

首先,它十分复杂。Dota 2 有 115 个可用英雄,每个英雄 1-10 个技能不等(卡尔,说的就是你),上百件物品,20 几个塔、数十个 NPC,5v5 组成天辉和夜魇两派,在三条线路上互相博弈,从中衍生出包括对线、打野、Gank、团战、插眼等不同的战术和安排。

OpenAI 在官方博客上列出了 Dota 2 和棋类游戏的对比数据:Dota 2 每 tick 平均产生 1000 个可能有效行为,相比之下,国际象棋是 35 个,围棋是 250 个;通过 Valve(Dota 2 的运营公司)的 bot API,OpenAI 把 Dota 2 视为 2 万个状态,也就代表人类在游戏中可获取到的所有信息。国际象棋代表大概 70 个枚举值,围棋大概有 400 个枚举值。

其次,Dota 2 很流行。这款游戏在全球有上千万的玩家,虽然数量上比不过《英雄联盟》或者如今的「吃鸡」和「堡垒」,但它由于历史相对久远(Dota 在 2005 年发行),又基于魔兽争霸的史诗背景,使得这款游戏有着很深的底蕴和口碑。

再者,Dota 2 有专业电竞赛事。每年 8 月,全世界的顶级玩家会来到北美参加 Dota 2 国际邀请赛 The International,这是由 Valve 举办。去年 TI7 的奖金池高达 2000 多万美元。

起初,OpenAI 并非着眼于击败顶尖的人类玩家,如果能使用当前最前沿的机器学习算法,开发出一个智能的、会玩 Dota 的虚拟机器人(下文用 bot 代替),就已经是莫大的突破了。没想到,路越走越远。

我们可能要失败了

2017 年年初,OpenAI 开发出了他们自认为最好的一款基于规则编写的脚本 bot。这要多亏于项目组的前研究员、如今对冲基金 DE Shaw Group 的 SVP Rafal Jozefowicz,Rafal 从没有打过 Dota,但他每天都看比赛回放,和其他成员聊 Dota 2 英雄是怎么放技能、怎么推塔、怎么买装备。

研究员们把能想到的规则都编写了进去,脚本 bot 也确实能打赢一些业余玩家,但面对稍强一些的玩家就毫无胜算了。

OpenAI 决定再进一步,把硬编码的部分取出来,转而用机器学习代替。他们使用强化学习(reinforcement learning)让 bot 从头开始学习。结果,他们发现在短时间里根本无法在 5v5 的环境里实现,太困难了。

研究员于是退而求其次,先从一个小游戏下手,然后逐步扩大游戏环境,这个小游戏叫 Kiting。

Kiting 是 Dota 里的一个技巧,一般出现在对线期:你攻击一下敌方单位然后通过走位让它打不到你,来来..地消耗敌方的血量。OpenAI 基于 Dota2 创造了一款小游戏:在一个环形孤岛上,让训练好的 bot 在岛上去通过 Kiting 的方式和脚本 bot,保证自己不被打到的同时将敌方单位击杀即算获胜。

听起来挺简单的吧?实际操作却根本不是一回事儿,OpenAI 的 bot 在 Kiting 里始终打不赢人类玩家。OpenAI 的 bot 始终沿着同样一种轨迹训练,但是人类往往不按套路出牌,这让实验结果一直差强人意。

「我们可能要失败了,」这是 OpenAI 在当时得出的结论,距离项目启动已经小半年了,进度却大幅度落后,不少研究员有些灰心。此时,OpenAI 决定走到哪儿算哪儿,即使是发布最新的研究成果也依然有价值。

结果转机出现了。研究员开始将训练环境里随机化,让英雄时而走的快,时而走的慢,时而因为故障而停滞不前。这个方法很快收到了奇效,随机性使得 bot 的强化学习策略网络非常鲁棒。2017 年 3 月 1 日,OpenAI 训练出来的小黑(黑暗游侠)已经可以在 Kiting 中击杀脚本编码的小牛(撼地神牛)。


自媒体 微信号:11jj 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1

    数字易经0到9代表什么卦(数字易经测算)

    大家好,小伟今天来为大家解答数字易经0到9代表什么卦以下问题,数字易经测算很多人还不知道,现在让我们一起来看看吧!1、数字1代表坎水、数

  2. 2

    苹果手机呼叫转移怎么设置(苹果手机呼叫转移怎么设置无法接通)

    大家好,小乐今天来为大家解答苹果手机呼叫转移怎么设置以下问题,苹果手机呼叫转移怎么设置无法接通很多人还不知道,现在让我们一起来看看

  3. 3

    中国红十字会标志简笔画(中国红十字会标志简笔画)

    大家好,小豪今天来为大家解答中国红十字会标志简笔画以下问题,中国红十字会标志简笔画很多人还不知道,现在让我们一起来看看吧!1、保护性

  4. 4

    八年级下册语文书人教版电子书(八年级下册语文书人教版电子书2022)

    大家好,小美今天来为大家解答八年级下册语文书人教版电子书以下问题,八年级下册语文书人教版电子书2022很多人还不知道,现在让我们一起来看

  5. 5

    古伊尔(魔兽古伊尔)

    大家好,小丽今天来为大家解答古伊尔以下问题,魔兽古伊尔很多人还不知道,现在让我们一起来看看吧!1、古伊尔是魔兽世界里面部落的一个酋长

  6. 6

    唯一极值点问题

    在高档数学的进修中,我们经常会碰着独一驻点的问题,在非常宽松的前提下,这个独一的驻点也就是极值点。今天我们稍微改变一下前提,商量如

  7. 7

    三公九卿制是什么(三公九卿制是什么朝代的制度)

    大家好,小乐今天来为大家解答三公九卿制是什么以下问题,三公九卿制是什么朝代的制度很多人还不知道,现在让我们一起来看看吧!1、三公九卿

  8. 8

    订房网哪个平台好(订房什么网最便宜)

    大家好,小娟今天来为大家解答订房网哪个平台好以下问题,订房什么网最便宜很多人还不知道,现在让我们一起来看看吧!1、携程、美团、艺龙、

Copyright 2024.依依自媒体,让大家了解更多图文资讯!