谷歌表示,其AI芯片烟雾CPU,GPU在性能测试中 印度最高法院听到生物识别认证系统的挑战 隐身MAC恶意软件间谍加密浏览器流量 talktalk使“公平宽带”承诺 Capita未能满足英国陆军的年度招聘目标,五年跑步 CCRC可以在邮局地平线试验之后抵消亚峰峰决定 Oceanhorn 2完整演练第10部分最终-Riskbourne城堡,保存Trin,回收装备,击败Mesmeroth,最终Boss 完整无缺,拥有黑暗的城堡,人类图像和深tap式战斗系统 下井:史诗般的销毁秘诀 2019年排名前5的手机游戏:丹恩(Dann)年度精选 2月的《动物穿越》中的所有新鱼类和现存鱼类,虫子和海洋生物:新视野 暗黑破坏神III的Switch版本正在获得自己的精美主机包 未来几周,现代战斗停电将切换 Starlink的最新更新增加了照片模式以及更多其他功能 冰冷的城市建设者和塔防混合型WinterForts:现在在iOS和Android上放逐王国 Nintendo Switch Lite可以延长电池寿命并提高便携性 您需要了解的Fortnite v7.30的一切 拉比德·桃(Rabbid Peach)将协助《超级粉碎兄弟》(Super Smash Bros.Ultimate)中的战士 约翰奥利弗在网络中立之后,FCC击中了DDOS攻击 Top Cyber​​ Cop说,网络犯罪最大危害 移动安全性需要5G时代的重新思考 Next.js 2.0与React,JavaScript更好地播放 金融服务巨头通过HCL转换申请交付 在Dockercon,另一个PR失败故事 民意调查:数据非常碎片,这是最担心的 Cisco / AppDynamics升级在App Management中拓宽Devops角色 英国独角兽创作在欧洲无与伦比 OpenStack将核心云平台的承诺重新签署为“开放式基础架构”推乘Pace PAC对英国边境和新习俗IT系统有“严重关切” Windows 10为9%的业务PC提供权力 有一种方法可以撤消微软更新阻止者造成的损坏 Top Cyber​​ Cop说,网络犯罪最大危害 Windows 10更新文件丢失后拉动 Microsoft在CRM Integration中发现了LinkedIn的另一个用途 反乌托邦惊悚片《 Beholder》为Nintendo Switch带来了暗中策略 迈克尔·布劳(Michael Brough)狂热的复古Spin-em-up螺旋鞋(Helix)现在在iPad和iPhone上上市 您将可以提前玩Dragon Quest Builders 2 Humble Bundle现在在其商店中销售Switch和3DS游戏 加入我们的上古卷轴:Blades Guild并在评论中分享您的! 新的iPad mini 3比去年的型号略有提高,第一款iPad mini现在售价250美元 时间扭曲,超快速的Katana Zero不仅仅是残酷的娱乐 在这部新影片中查看《 Super Smash Bros. Ultimate》动作的整整7分钟 2020年10月的6大最佳Switch游戏 任天堂阐明了其云保存策略 Oceanhorn 2完整演练第4部分-Owru酋长,深丛林宝藏,Owru神社,笔架山地牢 这些是我在Nintendo Switch的下一版中要更改的内容 一半的商业领袖没有意识到BPC网络攻击 YouTube为印度推出了低带宽版本 研究人员从柔性材料构建微处理器 Azure超越了AWS作为首选的公共云
您的位置:首页 >前端 >

谷歌表示,其AI芯片烟雾CPU,GPU在性能测试中

四年前,谷歌面临着难题:如果所有用户每天都有三分钟的语音识别服务,该公司需要加倍数据中心的数量只是为了处理机器学习系统供电的所有请求这些服务。

该公司而不是购买一堆新的房地产和服务器,而不是为此目的而开始创建专用硬件,用于运行语音识别等机器学习应用程序。

结果是张量处理单元(TPU),旨在加速深神经网络的推断阶段的芯片。谷歌周三发布了一篇论文,铺设了公司在对比CPU和GPU上看到的业绩,无论是对原始的力量还是每瓦所消耗的功率的性能。

TPU在测试的机器学习推理任务中平均平均为15至30倍,而不是比较的服务器类英特尔·哈维尔CPU或NVIDIA K80 GPU测试。重要的是,TPU的每个瓦特的性能比用CPU和GPU找到的谷歌的差价为25至80倍。

考虑到公司强调建筑机器学习应用,驾驶这种性能增加对谷歌非常重要。这些收益验证了公司在建筑机器学习硬件时验证,这是一个难以获得传统硅的大规模性能升高的时间。

这不仅仅是学术练习。自2015年以来,谷歌在其数据中心中使用了TPU,他们已经使用了改进应用程序的性能,包括翻译和图像识别。TPUS在能效时特别有用,这是与在大规模尺度上使用硬件的成本相关的重要指标。

谷歌目的的其他关键指标之一是延迟,这是TPUS Excel与其他硅选项相比的位置。谷歌的一个杰出硬件工程师常规Jouppi表示,机器学习系统需要快速响应,以提供良好的用户体验。

“关键是,互联网需要时间,所以如果你使用基于因特网的服务器,需要从您的设备到云需要时间,所以返回所需时间,”Jouppi说。“网络和云中的各种东西 - 在数据中心 - 他们需要一些时间。如果你想要接近瞬间的反应,那就不会留下很多[时间]。“

谷歌在六种不同的神经网络推理应用中测试了芯片,代表谷歌的数据中心中所有这些应用的95%。所测试的应用程序包括DeepMind alphago,该系统在去年在五场比赛中击败了李塞托。

该公司测试了TPUS对阵硬件的TPU,在大致相同的时间内释放,以试图获得苹果对苹果性能比较。它可能的是较新的硬件至少将缩小性能差距。

TPU还有TPU的空间也是为了改善。使用NVIDIA K80 GPU中存在的GDDR5内存与TPU应提供Google测试的现有配置的性能改进。根据该公司的研究,几个应用程序的性能受到内存带宽的限制。

此外,谷歌文件的作者声称有更多的软件优化的空间,以提高性能。作者称为其中一个经过测试的卷积神经网络应用(作为CNN1中的称为CNN1)作为候选者。但是,由于使用TPU的现有性能获得,如果将进行这些优化,则不清楚。

虽然神经网络模仿神经元在人类中发射信息的方式,但CNNS专门针对大脑如何处理视觉信息而建模。

“由于CNN1目前在TPU上运行超过70倍而不是CPU,CNN1开发人员已经很开心,因此目前尚不清楚是否会执行此类优化时,”“作者写道。

TPU是Chip Lingo作为特定应用集成电路(ASIC)所熟知的。它们是为一项任务构建的自定义芯片,用指令集硬编码到芯片本身中。Jouppi表示,他没有过于关切,并指出TPU足以处理机器学习模型的变化。

“它不像它是为一个型号设计的,如果有人提出了一个新的模型,我们就必须夹在筹码或那样的东西中,”他说。

Google不是唯一专注于使用专用硬件进行机器学习的公司。Jouppi表示,他知道在空间中工作的几个启动,Microsoft在其数据中心部署了一个现场可编程门阵列,以加速网络和机器学习应用程序。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。