Apache Spark 2.0发布 诺基亚转到高级开发人员计划 开发人员可以使用Asus Xtion Kinect克隆 红色编程语言 图灵赦免的新呼吁 程序员节-庆祝 Ki-适用于JavaScript的Lisp Go 1.10添加了自动缓存 您的WiFi知道您在哪里! Lodash-功能性JavaScript库 Go变成了七岁时的注意力 NetBeans 7.3发行候选版 平板电脑吸引用户远离台式机和笔记本电脑 LoveLetters赢得托尼销售奖 新的汉语普通话改善了版本控制 为了庆祝艾伦·图灵 Pharo 6.0移至64位 NativeScript-统治一切? 伊万·萨瑟兰(Ivan Sutherland)荣获京都奖 TypeScript 1.8 Hits Beta 可穿戴的Android-WIMM One Xamarin现在免费-这会改变一切还是什么? 图灵的纸牌信件将被拍卖 Arduino正式发布-1.0版 p5.j​​s将处理引入网络 JavaFX在Raspberry Pi上运行 jQuery仍然是我们最喜欢的框架 坑-F#到JavaScript编译器 Java 9的拟议时间表 Java ME 8随Raspberry Pi大量发布 图灵年:传承的遗产 芯片上的太赫兹传感器提供X射线视觉 禅光子花园 为Alan Turing的Universal Machine投票 适用于本机应用程序的JavaScript JDK 9更新 io.js加入Node.js基金会 Raspberry Pi获取HAT触摸屏 AngularJS 2.0截然不同 Nodyn-JVM上的Node.js 新的Nao机器人和1500万美元的投资 一个委员会来监督Java? 邀请获得免费软件奖提名 Apple 1打破在线拍卖纪录 D从GCC获得动力 赞助巨像 原型1.7.1发布 Microsoft支持asm.js JavaScript.com推出 Anders Hejlsberg-现代方式的编译器构建
您的位置:首页 >程序人生 >

Apache Spark 2.0发布

Apache Spark 2.0已发布,具有更新的SQL支持,结构化流和更好的性能。

自发布以来,Apache Spark是一个开源数据处理引擎,已经非常流行。据Apache称,它提高了Hadoop MapReduce的性能,使程序在内存中的运行速度提高了100倍,在磁盘上的运行速度提高了10倍。下图显示了Hadoop和Spark中的逻辑回归(根据Apache)。

逻辑回归

新版本通过新的ANSI SQL解析器和对子查询的支持,改进了对标准SQL的支持。解析器支持ANSI-SQL和Hive QL,而子查询支持则涵盖不相关和相关的标量子查询。不在谓词子查询中;在谓词子查询中;和(NOT)EXISTS谓词子查询。

对SQL:2003的支持意味着Spark 2.0可以运行所有99个TPC-DS查询,并且从更广泛的意义上讲,它将使使用SQL的应用程序移植到Spark变得更加容易。

对于此(以及所有2.X)版本,Spark保证其非实验API的稳定性。关于API的工作很广泛,DataFrame和Dataset在Scala和Java中是统一的。在Python和R中,由于缺乏类型安全性,DataFrame是主要的编程接口。

SparkSession API也已经过重新设计,并具有一个替代SQLContext和HiveContext的新入口点。还对累加器API进行了重新设计,使其具有更简单的类型层次结构,并支持原始类型的特殊化。

在机器学习领域,开发人员说,带有“管道” API的spark.ml软件包将成为主要的机器学习API,未来开发的重点将是基于DataFrame的API。

还增加了管道持久性,因此用户可以跨Spark支持的所有编程语言保存和加载机器学习管道和模型。MLlib是Spark的可扩展机器学习库。它适合Spark的API,并与Python中的NumPy互操作(从Spark 0.9开始)。您可以使用任何Hadoop数据源(例如HDFS,HBase或本地文件),从而轻松插入Hadoop工作流。

此版本中SparkR的最大改进是对用户定义函数的支持。根据发行说明,有三个用户定义的函数:dapply,gapply和lapply。前两个可用于使用dapply和gapply进行基于分区的UDF,例如分区模型学习。后者可用于进行超参数调整。

R支持的其他增强功能增加了在R中使用广义线性模型(GLM),朴素贝叶斯,生存回归和K均值的能力。

添加了基于Spark SQL和Catalyst优化器构建的结构化流API。这意味着您可以使用与静态数据源中相同的DataFrame / Dataset API针对流源和接收器进行编程。这将利用Catalyst优化器自动递增查询计划。

新版本可从Apache Spark或Databricks上获得,Databricks团队近几个月来一直在其中为Spark做出贡献。

sparklogo

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。