菲洛嘉青春动能素135HA FILLMED® NCTF 135HA LED指示灯的常见故障分析 智微智能 Elkhartlake K075终端,零售产业新选择 天空蓝拓客管理系统详细介绍版 muso公链项目 天使计划 是什么?[秘] 独家揭秘最前沿的家装“黑科技”——掌赋 天博体育欧洲杯特辑,东道主法兰西的失意2016 亚马逊的送货侦察员 学习听起来像挡泥板 Google Comics Factory使ML变得容易 笑着说-男性或女性 Amazon Rekognition中更好的人脸检测 关于Spaun的真相-大脑模拟 两个聊天机器人彼此聊天-有趣又怪异 GANPaint:将AI用于艺术 WCF和WF给予社区 从耳朵到脸 所有神经网络的深层缺陷 蠕虫在尾巴上平衡杆子 Kickstarter上的OpenCV AI套件 TensorFlow-Google的开源AI和计算引擎 众包取代新闻工作者 Google的DeepMind学会玩街机游戏 哑机器人V智能机器人 .NET与.NET 5融为一体 Google的深度学习-语音识别 LInQer将.NET LINQ移植到Javascript 机器人TED演讲-新的图灵测试? GAN的发明者加入苹果 您的智能手机会监视您键入的内容 人工智能帮助改善国际象棋 Zalando Flair NLP库已更新 TensorFlow 1.5包含移动版本 AlphaGo输了一场比赛-比分3-1 虚拟机器学习峰会 Microsoft开源AI调试工具 SharePoint走向移动 F#4.0发出文化变革的信号 克里斯蒂拍卖AI艺术品 人工智能如何区分 Facebook在蒙特利尔的新AI实验室 Mozilla想要您的声音 微软使用极深的神经网络赢得ImageNet 建立AI合作伙伴关系 .NET Core 3-Microsoft几乎回到了起点 神经网络-更好的销售商? Google使用AI查找您的住所 虹膜-适用于Android的Siri证明苹果没有优势 TensorFlow 2提供更快的模型训练 深度学习研究人员将为Google工作
您的位置:首页 >程序人生 >

进化比反向传播更好吗?

是的,另一个神经网络突破。这为我们提供了一种使用强化学习进行训练的方法,而无需生物学上难以置信且昂贵的反向传播方法。

Open AI的最新成果令人震惊,如果您一直是AI的遗传算法方法的支持者,也许就不会感到震惊。它来自一个团队,其中包括OpenAI的研究总监以及Geoffrey Hinton的前学生Ilya Sutskever。

当前,神经网络的增强方法采用神经网络,并使用反向传播(backprop)将网络的参数沿最大化其所获得奖励的方向移动。网络参数的变化是通过使用网络的梯度来计算的,以反向传播使网络的输出朝着增加的回报移动所需的校正。典型的网络可能具有1,000,000个或更多的参数,因此整个操作在计算上非常昂贵。

反向传播还存在其他问题。如果您担心这种事情,从生物学上讲是不可信的。如果神经网络被认为是生物神经网络的类似物,那么如果您使用反向传播,这种类比就会崩溃,或者充其量只能说是非常紧张的,因为生物网络无法计算出精确的梯度并执行任何明显的反向传播。应用反向传播技术还存在实际困难。通常,梯度变得非常接近于零,这使得学习非常非常缓慢。

从好的方面来说,强化学习神经网络最近取得了令人瞩目的成功,Google的Deep Mind掌握了一系列计算机游戏,并在自己的游戏中击败了Go的领先人类玩家。

简而言之,反向支持是我们最近在AI领域取得巨大成功的核心。

它可能不再占据中心舞台更长的时间。

新算法-进化策略或ES-与生物学中可能发生的事情非常接近,尽管将其与自然界中的进化操作相鉴别是错误的。它是一种优化算法,可以通过在与当前参数向量“接近”的参数空间中选择100个随机方向来工作。这提供了100个可以评估的候选参数向量。然后,将100个参数向量通过加权平均值进行组合,权重与每个向量接收到的奖励成正比。您会看到这很可能使网络朝着更好的方向发展。

ES1

在两个方面,ES的工作方式几乎是显而易见的-抽取大量样本几乎可以肯定,您将找到一个将您引向更高奖励的方向-红色区域。

如果您可以想象这个过程,那么直觉可能会让您相信收敛会非常缓慢-在合理的计算中几乎无法检测到。令人惊讶的是,它有效且有效地工作。

由于ES要求工作人员之间的通信微不足道,因此我们能够在10分钟内使用80个机器上的1,440个CPU解决最艰巨的MuJoCo任务(3D人形任务)。相比之下,在典型情况下,一台机器上32名A3C工人将在大约10个小时内解决此任务。

给出了其他示例,其中ES提供了与反向传播类似的性能,但使用了较少的计算量。

通过使用成百上千的并行工作人员,ES可以在一小时的训练时间后10分钟内解决3D人形行走问题,并在大多数Atari游戏中获得竞争性结果。

ES可以将大型神经网络带入规模较小且资金匮乏的小组,但有几点值得注意。

最重要的是,ES仅在强化学习中有效。在有监督的学习中,当培训员提供正确的目标并且可以计算出准确的误差时,反向传播比ES快得多:

例如,在我们的初步实验中,我们发现使用ES来估计MNIST数字识别任务上的梯度可能比使用反向传播慢1000倍之多。仅在RL设置中,必须通过采样来估计预期奖励的梯度,而ES才具有竞争力。

但是,从更大的角度来看,监督学习是一种更为专业的技术-更像是统计而非AI。毕竟,您在现实世界中多久拥有一位完美的老师。在现实世界中,学习是通过强化而不是监督。

还值得注意的是,这不是应用于神经网络的遗传算法。它更像是一种随机优化形式。作为遗传算法的一个例子,必须将参数向量视为人工基因组,并进行交叉和突变。该算法还将在每一代之间保留一组向量,以希望繁殖出一些更合适的向量。在ES算法的情况下,没有交叉或突变,只有100个随机方向,并且这些方向根据其适应性混合在一起,而不是仅存在高适应性示例。

真正有趣的是,使用1,000,000个参数,您正在1,000,000维的空间中工作。选择100个随机方向似乎不足以探索使系统移动到最佳状态。然而。重复进行10,000次迭代确实可以很好地探索大量可能的方向。显然,这是某种随机有限差分方法。

该算法的实际性质并不重要。重要的是,这是仅使用增强信号训练网络的快速方法。

ESicon

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。