咨詢郵箱 咨詢郵箱:service@yitianxinda.com 咨詢熱線 咨詢熱線:18101296137 微博 微信
北京軟件開(kāi)發(fā)公司Apache Spark 2.0技術預覽版_北京軟件開(kāi)發(fā)公司
發表日期:2016-06-08 10:12:36    文章編輯:yitianxinda    浏覽次數:

  北京軟件開發公司Apache Spark 2.0技術預覽版,Apache Spark第一版發布時隔兩年後,Databricks公布瞭基於上遊分支2.0.0-preview的Apache Spark 2.0技術預覽版。該預覽版在穩定性和API方面均不适合用於生産環境,主要是爲瞭在正式上市前收集來及社區的反饋。

  此次發布的新版主要針對(duì)社區反饋進一步完善瞭(le)各種功能,根據Spark的開發計劃,主要改進分爲兩方面。

  SQL是基於(yú)Apache Spark的應用程序較常用的接口之一。Spark 2.0可以支持全部的99個TPC-DS查詢,這些查詢大部分都基於(yú)SQL:2003規範。這些改進有助於(yú)在對(duì)應用程序堆棧進行較少量重寫的情況下将現有數據負載移植至Spark後端。

  第二方面改進主要是編程API,同時在這個新版中也更重視機器學習。spark.mllib程序包已經被全新的spark.ml程序包所取代,後者更加側重於(yú)基於(yú)管線的API,這項技術源自DataFrames。機器學習管線和模型現已能夠持久保存,Spark所支持的所有語言均支持這一特性。同時R已經可以支持K-Means、Generalized Linear Models(GLM)、樸素貝(bèi)葉斯和Survival Regression。

  借助新增的Datasets類,DataFrames和Datasets已實現瞭(le)統一,可支持Scala和Java編(biān)程語言,同時也可充當結構流(Structured streaming)的抽象。不支持編(biān)譯時類型安全(Compile time type safety)的語言暫時還無法做到這一點,此時隻能使用DataFrames作爲主要抽象。SQLContext和HiveContext已被統一的SparkSession所取代。新增的Accumulator API具有比基本類型更簡單的類型層級,可支持對基本類型進行專門化(Specialization)。老的API已被棄用,但爲瞭(le)實現向後兼容性依然包含在新版中。

  新發布的結構化流API主要可用於(yú)在不增加複雜性的前提下管理流數據集,借此程序員和現有機器學習算法将可以處理批量加載的數據集。在第二代Tungsten引擎的幫(bāng)助下,性能也有所增強,執行速度較高可提升10倍。

  該(gāi)技術預覽版已經發(fā)布至DataBricks。

相關文章推薦
下一代工業進步被稱爲工業4.0,旨在将傳統行業(如自動化)互聯互通並實現計算機化。工業4.0的目标是使工廠變得更加智能,提高适應性和資源效率,以及改善工廠之間供...
您正在尋找能夠将您令人驚歎的應用程序想法變爲現實的人。我應該聘請軟件公司還是兼職開發者?這可能是每個新晉産品所有者問自己的最常見問題。在開始開發過程之前,您需要...
從頭開始構建網站並托管和維護或改造舊網站需要聘請一支擁有技能和專業知識的團隊。如果您不想進一步擴大團隊,不想經曆招聘大手筆,或者想降低離岸成本,北京軟件開發外包...
物聯網 ( IoT ) 概念首次出現時,曾有大膽預測稱,到 2020 年,物聯網連接設備數量将達到 500 億甚至數萬億。這些極高的估值引發瞭炒作,但最終被證明...
下一代工業進步被稱爲工業4.0,旨在将傳統行業(如自動化)互聯互通並實現計算機化。工業4.0的目标是使工廠變得更加智能,提高适應性和資源效率,以及改善工廠之間供...
企業需要強大且可靠的在線形象才能取得成功。Magento 已成爲領先的電子商務平台,爲各種規模的企業提供強大的功能和定制選項。對於希望通過基於 Magento ...