现场报道 | 面对最菜TI战队,OpenAI在Dota2上输的毫无还手之力(5)

OpenAI 在官方博客称,他们将γ 从 0.998(以 46 秒为半衰期)调整到了 0.997(以 5 分钟为半衰期)。相比之下,OpenAI 的近端策略优化(PPO)论文中最长的时间跨度为半衰期 0.5 秒,DeepMind 的 Rainbow 论文中最长的时间跨度为半衰期 4.4 秒,Google Brain 的 Observe and Look Further 论文中则使用了 46 秒的半衰期。 [好文分享:www.11jj.com]

如何让五个神经网络协作团战是另一个让不少人好奇的一点,这其实也是建立在奖励机制上。OpenAI 开发了一个叫 Team Spirit 的超参数,数值从 0 到 1,数字越小每个神经网络就越「自私」,相反则越考虑团队的整体利益。到最后,OpenAI 发现将 Team Spirit 设置为 1 都能赢得比赛。 [本文来自:www.11jj.com]

在训练初期,研究员其实会将数值调整的很小,这样 AI 会更考虑自身的奖励,学习如何分路、对线、提供金钱和经验。等到每个神经网络学会了基本的策略和玩法后,研究员才将数值慢慢提高。

由于所有参数都是随机,AI 没有引入任何人类的经验,所以 AI 没有 1-5 号位的概念,不会区分辅助和 carry,出装备也是从头开始学习。

在第一场游戏中,英雄漫无目的地在地图上探索,而在几个小时的训练后,出现了规划、发育或中期战斗等概念。几天后,智能体能一致地采用基本的人类策略:试图从对手偷财富、推塔发育、在地图旋转控制英雄以获得线路优势。通过进一步的训练,它们开始学会了 5 个英雄一起推塔这样的高级策略。

「AI只花了两天就打赢我了」

曾就读于麻省理工大学的 Jonathan Raiman 在去年 10 月加入了 OpenAI。Raiman 和 OpenAI 的不少研究员是旧相识,加入后,他们就经常在周一晚上开五人黑,这慢慢地竟成了 OpenAI 的传统

五月的某一个周一(官方显示为5月15日),AI首次在限制的Dota环境里打赢了OpenAI的团队(天梯分2500)。

「那场比赛我记得人类支撑了大概 40 多分钟,」Raiman 在场边观看了比赛。「之后,比赛时间就越来越短了。我超级兴奋的!我觉得我们有 50/50 的几率能挑战专业的队伍了。」

事实上,在这场比赛的一周前,AI 已经打赢过一次人类了。但那一次胜利存在着一些问题,研究员们检查了后台的代码,发现运行神经网络的代码是错的!AI 在比赛的过程中完全没有使用 LSTM 的记忆功能,瞎猫碰到死耗子,却赢了。在这之前,研究员根本没有看出来 AI 有任何问题。

「许多机器学习的问题还是落实在工程和系统漏洞修复上,」OpenAI 的研究科学家 Susan Zhang 说。「比如,AI 在很长一段时间里,都会避免升级到 25 级,因为它发现达到 25 级会出现巨大负面奖励,所以到了 24 级 AI 就不会出去升经验了。」


现场报道 | 面对最菜TI战队,OpenAI在Dota2上输的毫无还手之力(5)

Susan Zhang

Raiman 也和 AI 过了过招。第一次,他所在的团队赢了;可当 AI 经过两天的训练后,Raiman 就不是对手了。「对我这个水平的人来说,大概就只有 24-48 个小时的空窗期,过了就打不过 AI 了。一开始我们还能抵抗 40 多分钟,到后面就只有 20 分钟,再到后面就十多分钟,最后索性我们就呆在基地不出来了。」

到了 6 月 6 日,OpenAI 已经可以击败水平在 4000-6000 分的队伍,但是输给了匹配分 5500 的专业队伍。在那次比赛中,研究员们发现了许多有意思的现象:

OpenAI Five 习惯牺牲自己的优势路(夜魇军团的上路,天辉军团的下路),然后在劣势路派上三个英雄压制敌人的优势路,迫使战斗转移到对手更难防御的一边。该策略在过去几年的专业领域出现过,现在已经成为了流行战术。

比赛初期到中期的转换比对手更快,在人类玩家走位出问题时,AI 会主动进行 gank;在对方组织起反抗前,直接推塔。

AI 会在前期将钱和经验让给辅助英雄(这些英雄一般不优先获取资源)让它们的伤害值更高,从而建立起更大的优势,赢得团战以及利用对方的错误来确保快速取胜。


现场报道 | 面对最菜TI战队,OpenAI在Dota2上输的毫无还手之力(5)


时隔将近一年,OpenAI 首次对外公布了 OpenAI Five 项目的进度,发布 OpenAI Five 项目报告。

随着更多的细节被披露,「一天训练 180 年,OpenAI 击败人类 Dota2 玩家」、「OpenAI 攻破 Dota2」的新闻迅速席卷全球。微软创始人 Bill Gates 就发推特说,「AI 机器人在视频游戏 Dota 2 中击败了人类。这是一个大问题,因为他们的胜利需要团队合作和协作 - 这是推动人工智能的一个重要里程碑。」

人们开始真的相信:Dota 2,是不是也会像围棋一样被 AI 攻破了?

只有半个 Dota

OpenAI 第一阶段的成果确实喜人,但披露出来的结果并不能让许多 Dota 粉丝满意,原因是:太多限制了。在截止 6 月的比赛中,游戏里玩家只能操控五个英雄、不能插眼、不能开雾、没有 Roshan、不能隐身、禁止扫描等等……这还算是 Dota 吗?

OpenAI 不是不想放开限制,而是 AI 需要学习的东西实在太多了,时间却很有限。

举个例子,OpenAI 严格控制了英雄数量,如果你仔细观察会发现大多都是 Dota2 的入门英雄,比如冰女、影魔、巫妖、巫医等等。因此,在论坛或者微博里你最常看到的一句评论就是:敢不敢让 OpenAI 玩卡尔或者狗头(地卜师)。

AI 可以玩卡尔,但这需要大量的时间训练。这和人其实是一样的,上手先玩入门英雄,熟练了再玩高级英雄(我到现在都玩不来卡尔),英雄难度越大,学习的时间越久。


现场报道 | 面对最菜TI战队,OpenAI在Dota2上输的毫无还手之力(5)

一图详解卡尔十个技能

由于训练中所有参数都是随机的,AI 只能靠不断的训练中摸索出使用这些技能的方法,所以它并没有真正理解这些技能。有些技能很直接,例如冰女的大招放出来就一定会有伤害;有些则相对复杂,比如炼金术士,它的二技能「不稳定化合物」是一把双刃剑:5 秒内放出去可以晕眩敌方英雄造出伤害,超过 5.5 秒就会伤害自己。

自媒体 微信号:11jj 扫描二维码关注公众号
爱八卦,爱爆料。

小编推荐

  1. 1

    数字易经0到9代表什么卦(数字易经测算)

    大家好,小伟今天来为大家解答数字易经0到9代表什么卦以下问题,数字易经测算很多人还不知道,现在让我们一起来看看吧!1、数字1代表坎水、数

  2. 2

    苹果手机呼叫转移怎么设置(苹果手机呼叫转移怎么设置无法接通)

    大家好,小乐今天来为大家解答苹果手机呼叫转移怎么设置以下问题,苹果手机呼叫转移怎么设置无法接通很多人还不知道,现在让我们一起来看看

  3. 3

    中国红十字会标志简笔画(中国红十字会标志简笔画)

    大家好,小豪今天来为大家解答中国红十字会标志简笔画以下问题,中国红十字会标志简笔画很多人还不知道,现在让我们一起来看看吧!1、保护性

  4. 4

    八年级下册语文书人教版电子书(八年级下册语文书人教版电子书2022)

    大家好,小美今天来为大家解答八年级下册语文书人教版电子书以下问题,八年级下册语文书人教版电子书2022很多人还不知道,现在让我们一起来看

  5. 5

    古伊尔(魔兽古伊尔)

    大家好,小丽今天来为大家解答古伊尔以下问题,魔兽古伊尔很多人还不知道,现在让我们一起来看看吧!1、古伊尔是魔兽世界里面部落的一个酋长

  6. 6

    唯一极值点问题

    在高档数学的进修中,我们经常会碰着独一驻点的问题,在非常宽松的前提下,这个独一的驻点也就是极值点。今天我们稍微改变一下前提,商量如

  7. 7

    三公九卿制是什么(三公九卿制是什么朝代的制度)

    大家好,小乐今天来为大家解答三公九卿制是什么以下问题,三公九卿制是什么朝代的制度很多人还不知道,现在让我们一起来看看吧!1、三公九卿

  8. 8

    订房网哪个平台好(订房什么网最便宜)

    大家好,小娟今天来为大家解答订房网哪个平台好以下问题,订房什么网最便宜很多人还不知道,现在让我们一起来看看吧!1、携程、美团、艺龙、

Copyright 2024.依依自媒体,让大家了解更多图文资讯!