訂閱
糾錯(cuò)
加入自媒體

大數(shù)據(jù)小知識(shí):四種數(shù)據(jù)處理系統(tǒng)各自的特征與優(yōu)勢

大數(shù)據(jù)中蘊(yùn)含的寶貴價(jià)值成為人們存儲(chǔ)和處理大數(shù)據(jù)的驅(qū)動(dòng)力,因此海量數(shù)據(jù)的處理對(duì)于當(dāng)前存在的技術(shù)來說是一種極大的挑戰(zhàn)。目前,人們對(duì)大數(shù)據(jù)的處理形式主要是對(duì)靜態(tài)數(shù)據(jù)的批量處理,對(duì)在線數(shù)據(jù)的實(shí)時(shí)處理,以及對(duì)圖數(shù)據(jù)的綜合處理。其中,在線數(shù)據(jù)的實(shí)時(shí)處理又包括對(duì)流式數(shù)據(jù)的處理和實(shí)時(shí)交互計(jì)算兩種。本文將詳細(xì)闡述上述4種數(shù)據(jù)形式特征以及各自的處理系統(tǒng)。

利用批量數(shù)據(jù)挖掘合適的模式,得出具體的含義,制定明智的決策,最終做出有效的應(yīng)對(duì)措施實(shí)現(xiàn)業(yè)務(wù)目標(biāo)是大數(shù)據(jù)批處理的首要任務(wù)。大數(shù)據(jù)的批量處理系統(tǒng)適用于先存儲(chǔ)后計(jì)算,實(shí)時(shí)性要求不高,同時(shí)數(shù)據(jù)的準(zhǔn)確性和全面性更為重要的場景。

批量數(shù)據(jù)的特征通常有3個(gè)。

第一,數(shù)據(jù)體量巨大。數(shù)據(jù)從TB級(jí)別躍升到PB級(jí)別。數(shù)據(jù)是以靜態(tài)的形式存儲(chǔ)在硬盤中,很少進(jìn)行更新,存儲(chǔ)時(shí)間長,可以重復(fù)利用,然而這樣大批量的數(shù)據(jù)不容易對(duì)其進(jìn)行移動(dòng)和備份。

第二,數(shù)據(jù)精確度高。批量數(shù)據(jù)往往是從應(yīng)用中沉淀下來的數(shù)據(jù),因此精度相對(duì)較高,是企業(yè)資產(chǎn)的一部分寶貴財(cái)富。

第三,數(shù)據(jù)價(jià)值密度低。以視頻批量數(shù)據(jù)為例,在連續(xù)不斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。因此,需要通過合理的算法才能從批量的數(shù)據(jù)中抽取有用的價(jià)值。此外,批量數(shù)據(jù)處理往往比較耗時(shí),而且不提供用戶與系統(tǒng)的交互手段,所以當(dāng)發(fā)現(xiàn)處理結(jié)果和預(yù)期或與以往的結(jié)果有很大差別時(shí),會(huì)浪費(fèi)很多時(shí)間。因此,批量數(shù)據(jù)處理適合大型的相對(duì)比較成熟的作業(yè)。

Google于2010年推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r(shí)數(shù)據(jù)處理邁進(jìn)。實(shí)時(shí)數(shù)據(jù)處理是針對(duì)批量數(shù)據(jù)處理的性能問題提出的,可分為流式數(shù)據(jù)處理和交互式數(shù)據(jù)處理兩種模式。在大數(shù)據(jù)背景下,流式數(shù)據(jù)處理源于服務(wù)器日志的實(shí)時(shí)采集,交互式數(shù)據(jù)處理的目標(biāo)是將PB級(jí)數(shù)據(jù)的處理時(shí)間縮短到秒級(jí)。通俗而言,流式數(shù)據(jù)是一個(gè)無窮的數(shù)據(jù)序列,序列中的每一個(gè)元素來源各異,格式復(fù)雜,序列往往包含時(shí)序特性,或者有其他的有序標(biāo)簽(如IP報(bào)文中的序號(hào))。從數(shù)據(jù)庫的角度而言,每一個(gè)元素可以看作是一個(gè)元組,而元素的特性則類比于元組的屬性。流式數(shù)據(jù)在不同的場景下往往體現(xiàn)出不同的特征,如流速大小、元素特性數(shù)量、數(shù)據(jù)格式等,但大部分流式數(shù)據(jù)都含有共同的特征,這些特征便可用來設(shè)計(jì)通用的流式數(shù)據(jù)處理系統(tǒng)。

下面簡要介紹流式數(shù)據(jù)共有的特征。

首先,流式數(shù)據(jù)的元組通常帶有時(shí)間標(biāo)簽或其余含序?qū)傩。因此,同一流式?shù)據(jù)往往是被按序處理的。然而數(shù)據(jù)的到達(dá)順序是不可預(yù)知的,由于時(shí)間和環(huán)境的動(dòng)態(tài)變化,無法保證重放數(shù)據(jù)流與之前數(shù)據(jù)流中數(shù)據(jù)元素順序的一致性。這就導(dǎo)致了數(shù)據(jù)的物理順序與邏輯順序不一致。而且,數(shù)據(jù)源不受接收系統(tǒng)的控制,數(shù)據(jù)的產(chǎn)生是實(shí)時(shí)的、不可預(yù)知的。此外,數(shù)據(jù)的流速往往有較大的波動(dòng),因此需要系統(tǒng)具有很好的可伸縮性,能夠動(dòng)態(tài)適應(yīng)不確定流入的數(shù)據(jù)流,具有很強(qiáng)的系統(tǒng)計(jì)算能力和大數(shù)據(jù)流量動(dòng)態(tài)匹配的能力。

其次,數(shù)據(jù)流中的數(shù)據(jù)格式可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的甚至是無結(jié)構(gòu)化的。數(shù)據(jù)流中往往含有錯(cuò)誤元素、垃圾信息等。因此流式數(shù)據(jù)的處理系統(tǒng)要有很好的容錯(cuò)性與異構(gòu)數(shù)據(jù)分析能力,能夠完成數(shù)據(jù)的動(dòng)態(tài)清洗、格式處理等。最后,流式數(shù)據(jù)是活動(dòng)的(用完即棄),隨著時(shí)間的推移不斷增長,這與傳統(tǒng)的數(shù)據(jù)處理模型(存儲(chǔ)?查詢)不同,要求系統(tǒng)能夠根據(jù)局部數(shù)據(jù)進(jìn)行計(jì)算,保存數(shù)據(jù)流的動(dòng)態(tài)屬性。流式處理系統(tǒng)針對(duì)該特性,應(yīng)當(dāng)提供流式查詢接口,即提交動(dòng)態(tài)的SQL語句,實(shí)時(shí)地返回當(dāng)前結(jié)果。

與非交互式數(shù)據(jù)處理相比,交互式數(shù)據(jù)處理靈活、直觀、便于控制。系統(tǒng)與操作人員以人機(jī)對(duì)話的方式一問一答——操作人員提出請(qǐng)求,數(shù)據(jù)以對(duì)話的方式輸入,系統(tǒng)便提供相應(yīng)的數(shù)據(jù)或提示信息,引導(dǎo)操作人員逐步完成所需的操作,直至獲得最后處理結(jié)果。采用這種方式,存儲(chǔ)在系統(tǒng)中的數(shù)據(jù)文件能夠被及時(shí)處理修改,同時(shí)處理結(jié)果可以立刻被使用。交互式數(shù)據(jù)處理具備的這些特征能夠保證輸入的信息得到及時(shí)處理,使交互方式繼續(xù)進(jìn)行下去。

圖由于自身的結(jié)構(gòu)特征,可以很好地表示事物之間的關(guān)系,在近幾年已成為各學(xué)科研究的熱點(diǎn)。圖中點(diǎn)和邊的強(qiáng)關(guān)聯(lián)性,需要圖數(shù)據(jù)處理系統(tǒng)對(duì)圖數(shù)據(jù)進(jìn)行一系列的操作,包括圖數(shù)據(jù)的存儲(chǔ)、圖查詢、最短路徑查詢、關(guān)鍵字查詢、圖模式挖掘以及圖數(shù)據(jù)的分類、聚類等。隨著圖中節(jié)點(diǎn)和邊數(shù)的增多(達(dá)到幾千萬甚至上億數(shù)),圖數(shù)據(jù)處理的復(fù)雜性給圖數(shù)據(jù)處理系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn)。下面主要闡述圖數(shù)據(jù)的特征和典型應(yīng)用以及代表性的圖數(shù)據(jù)處理系統(tǒng)。

圖數(shù)據(jù)中主要包括圖中的節(jié)點(diǎn)以及連接節(jié)點(diǎn)的邊,通常具有3個(gè)特征。

第一,節(jié)點(diǎn)之間的關(guān)聯(lián)性。圖中邊的數(shù)量是節(jié)點(diǎn)數(shù)量的指數(shù)倍,因此,節(jié)點(diǎn)和關(guān)系信息同等重要,圖結(jié)構(gòu)的差異也是由于對(duì)邊做了限制,在圖中,頂點(diǎn)和邊實(shí)例化構(gòu)成各種類型的圖,如標(biāo)簽圖、屬性圖、語義圖以及特征圖等。

第二,圖數(shù)據(jù)的種類繁多。在許多領(lǐng)域中,使用圖來表示該鄰域的數(shù)據(jù),如生物、化學(xué)、計(jì)算機(jī)視覺、模式識(shí)別、信息檢索、社會(huì)網(wǎng)絡(luò)、知識(shí)發(fā)現(xiàn)、動(dòng)態(tài)網(wǎng)絡(luò)交通、語義網(wǎng)、情報(bào)分析等。每個(gè)領(lǐng)域?qū)D數(shù)據(jù)的處理需求不同,因此,沒有一個(gè)通用的圖數(shù)據(jù)處理系統(tǒng)滿足所有領(lǐng)域的需求。

第三,圖數(shù)據(jù)計(jì)算的強(qiáng)耦合性。在圖中,數(shù)據(jù)之間是相互關(guān)聯(lián)的,因此,對(duì)圖數(shù)據(jù)的計(jì)算也是相互關(guān)聯(lián)的。這種數(shù)據(jù)耦合的特性對(duì)圖的規(guī)模日益增大達(dá)到上百萬甚至上億節(jié)點(diǎn)的大圖數(shù)據(jù)計(jì)算提出了巨大的挑戰(zhàn)。大圖數(shù)據(jù)是無法使用單臺(tái)機(jī)器進(jìn)行處理的,但如果對(duì)大圖數(shù)據(jù)進(jìn)行并行處理,對(duì)于每一個(gè)頂點(diǎn)之間都是連通的圖來講,難以分割成若干完全獨(dú)立的子圖進(jìn)行獨(dú)立的并行處理;即使可以分割,也會(huì)面臨并行機(jī)器的協(xié)同處理,以及將最后的處理結(jié)果進(jìn)行合并等一系列問題。這需要圖數(shù)據(jù)處理系統(tǒng)選取合適的圖分割以及圖計(jì)算模型來迎接挑戰(zhàn)并解決問題。

四種大數(shù)據(jù)各自的特點(diǎn)和處理方式都記住了嗎,使用的時(shí)候要根據(jù)不同的情況來考量哦。

想要獲取更多大數(shù)據(jù)相關(guān)資訊和知識(shí),關(guān)注微信公眾號(hào)成都科多大數(shù)據(jù)就能看到啦。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)