Google在AI方面有另一个突破,它的规模足以在《自然》杂志上发表论文-那么到底是什么呢?
当Google收购DeepMind时,它似乎是出于信任,认为可能会产生一些好处。关于AI在新的做事方式上取得了巨大飞跃的讨论模糊不清,而这种谈话常常使AI变得不受欢迎。事实证明,DeepMind至少提出了两个好主意,但并不是革命性的。它们只是迈出的一步,您要注意的好一步是沿着AI已有一段时间的道路。
如果我现在告诉您涉及到一个神经网络,这不会让人感到意外。但是另一个组成部分-Q Learning可能会让您急于进入Wikipedia。关键事实是,Q学习是强化学习的标准规范的一部分。
一般说来,学习有三种基本类型-有监督,无监督和强化,但是这三种之间存在灰色阴影。
强化学习的关键要素是系统会做某事,而不是被告知应该做些什么-监督学习或什么都不告诉-无监督学习,它会得到回报。奖励可以由主管来人为产生,该主管可以判断系统的运行状况,或者可以自然而然地完成任务。动物,包括人类,进行了大量的强化学习,总的来说,如果他们做正确的事情,就会得到奖励,而如果做错了事情,则会受到惩罚。
我们通常为强化学习建模的方法是拥有一组状态和动作。动作通常将系统从一种状态转移到另一种状态,并且通常会以某种概率进行,因此,系统会获得奖励-数值。当系统运行缓慢时,它会建立每个动作和状态的价值或质量的构想,然后便可以选择使报酬最大化的动作。
您会看到有许多可能的策略。您可以采取随机行动,直到发现每个状态的价值为止,这是探索阶段。然后,您可以使用这些信息获得最大的回报-开发阶段。但是,在大多数情况下,最好将两种策略混合使用,以使您尽快获得最大的回报。
您需要的是每个动作和状态的质量的估计量,这就是Q学习的基础。它是使用当前奖励和您到目前为止所访问过的所有州的质量估算的当前知识来估算的州质量。
现在的问题是,原则上可能会有很多状态,您将不得不保留一个很大的表,其中包含您迄今为止估计的所有值。更好的主意是使用神经网络来学习表格并找到有效的状态和动作模式。
DeepMind团队就是这么做的,他们将其与许多经典的街机游戏联系在一起。所有神经网络输入的都是屏幕显示的像素。系统可以从一组合法的游戏动作中选择一个动作,有关如何玩游戏的唯一指导是通过分数获得的反馈,即分数被用作强化学习的奖励。
因此,神经网络将深度神经网络和Q学习结合在一起,因此被称为DQN。
将DQN应用于许多著名的街机游戏,在49款游戏中,其性能被认为优于专业游戏测试员。
蓝色条形图表示DQN与具有100%含义的人类专家人相比有多好。
图中的灰色条显示了基于线性函数逼近器的传统Q学习程序的运行情况。未解决的问题之一是,为什么DQN在旧线性函数逼近器工作良好的任务上失败。
重要的一点是,所有游戏都使用相同的神经网络和相同的训练方法,这使得该方法看起来非常通用。当然,游戏在类型上并没有表现出太多的变化。我们有侧向射击游戏,拳击,3D赛车,太空侵略者和突破,但没有逻辑或策略游戏。
系统发现看似复杂的策略的方式以学习在Breakout中打洞墙壁的方式为例,以便通过在后排弹跳球获得高分。这很有趣,但是请注意,它所做的只是找到一组具有较高奖励的动作-这里没有什么鬼的。
这是一项不错的工作,但并不是革命性的,因为许多帐户都在设计它。多年来,这项工作的所有元素都是标准的AI技术。它们甚至以大致相同的方式一起使用。
有趣的是,有些游戏中DQN方法的效果不是很好。这些有什么特别之处?我的猜测是,他们所有的奖励与个人行为都没有特别好的联系,这使信用分配问题变得非常困难。
做得好-尚无突破,大肆宣传。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。