訂閱
糾錯
加入自媒體

工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”——Apache Spark

生活離不開水,同樣離不開數(shù)據(jù),我們被數(shù)據(jù)包圍,在數(shù)據(jù)中生活。當(dāng)數(shù)據(jù)越來越多時,就成了大數(shù)據(jù)。

在“中國制造2025”的技術(shù)路線圖中,工業(yè)大數(shù)據(jù)是作為重要突破點來規(guī)劃的,而在未來的十年,以數(shù)據(jù)為核心構(gòu)建的智能化體系會成為支撐智能制造和工業(yè)互聯(lián)網(wǎng)的核心動力。而想要理解大數(shù)據(jù),就需要理解大數(shù)據(jù)相關(guān)的查詢、處理、機器學(xué)習(xí)、圖計算和統(tǒng)計分析等。Apache Spark 作為新一代輕量級大數(shù)據(jù)快速處理平臺,集成了大數(shù)據(jù)相關(guān)的各種能力,是理解大數(shù)據(jù)的首選。

簡單來講,Spark就是一個快速、通用的大規(guī)模數(shù)據(jù)處理引擎,各種不同的應(yīng)用,如實時流處理、機器學(xué)習(xí)、交互式查詢等,都可以通過Spark 建立在不同的存儲和運行系統(tǒng)上。今天的格物匯,就帶大家來認(rèn)識一下如日中天、高速發(fā)展的大數(shù)據(jù)處理明星——Spark。

一、  Spark發(fā)展歷程

l  2009年,Spark誕生于伯克利大學(xué)AMPLab,最開初屬于伯克利大學(xué)的研究性項目,最開始Spark只是一個實驗性的項目,代碼量非常少,僅有3900行代碼左右,屬于輕量級的框架。

l  2010年,伯克利大學(xué)正式開源了Spark項目。

l  2013年6月,Spark成為了Apache基金會下的項目,進入高速發(fā)展期,第三方開發(fā)者貢獻了大量的代碼,活躍度非常高。

l  2014年2月,Spark以飛快的速度稱為了Apache的頂級項目。

l  2014年5月底Spark1.0.0發(fā)布。

l  2016年6月Spark2.0.0發(fā)布

l  2018年11月 Spark2.4.0 發(fā)布

Spark作為Hadoop生態(tài)中重要的一員,其發(fā)展速度堪稱恐怖,從誕生到成為Apache頂級項目不到五年時間,不過在如今數(shù)據(jù)量飛速增長的環(huán)境與背景下,Spark作為高效的計算框架能收到如此大的關(guān)注也是有所依據(jù)的。

二、  Spark的特點

1.  速度快

Spark通過使用先進的DAG調(diào)度器、查詢優(yōu)化器和物理執(zhí)行引擎,可以高性能地進行批量及流式處理。使用邏輯回歸算法進行迭代計算,Spark比Hadoop速度快100多倍。

2.     簡單易用

Spark 目前支持多種編程語言,比如Java、Scala、Python、R。熟悉其中任一門語言的都可以直接上手編寫Spark程序,非常方便。還支持超過80種高級算法,使用戶可以快速構(gòu)建不同應(yīng)用。并且Spark還支持交互式的Python和Scala的Shell,這意味著可以非常方便的在這些Shell中使用Spark集群來驗證解決問題的方法,而不是像以前一樣,需要打包、上傳集群、驗證等。這對于原型開發(fā)非常重要。

3.     通用性高

Spark 目前主要由四大組件,如下:

1)   Spark SQL:SQL on Hadoop,能夠提供交互式查詢和報表查詢,通過JDBC等接口調(diào)用;

2)   Spark Streaming::流式計算引擎;

3)   Spark MLlib: 機器學(xué)習(xí)庫;

4)   Spark GraphX:圖計算引擎。

擁有這四大組件,成功解決了大數(shù)據(jù)領(lǐng)域中,離線批處理、交互式查詢、實時流計算、機器學(xué)習(xí)與圖計算等最重要的任務(wù)和問題,這些不同類型的處理都可以在同一應(yīng)用中無縫使用。Spark統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺處理問題,減少開發(fā)和維護的人力成本和部署平臺的物理成本。當(dāng)然還有,作為統(tǒng)一的解決方案,Spark并沒有以犧牲性能為代價。相反,在性能方面Spark具有巨大優(yōu)勢。

1  2  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號