大數(shù)據(jù)小知識(shí):四種數(shù)據(jù)處理系統(tǒng)各自的特征與優(yōu)勢
大數(shù)據(jù)中蘊(yùn)含的寶貴價(jià)值成為人們存儲(chǔ)和處理大數(shù)據(jù)的驅(qū)動(dòng)力,因此海量數(shù)據(jù)的處理對(duì)于當(dāng)前存在的技術(shù)來說是一種極大的挑戰(zhàn)。目前,人們對(duì)大數(shù)據(jù)的處理形式主要是對(duì)靜態(tài)數(shù)據(jù)的批量處理,對(duì)在線數(shù)據(jù)的實(shí)時(shí)處理,以及對(duì)圖數(shù)據(jù)的綜合處理。其中,在線數(shù)據(jù)的實(shí)時(shí)處理又包括對(duì)流式數(shù)據(jù)的處理和實(shí)時(shí)交互計(jì)算兩種。本文將詳細(xì)闡述上述4種數(shù)據(jù)形式特征以及各自的處理系統(tǒng)。
利用批量數(shù)據(jù)挖掘合適的模式,得出具體的含義,制定明智的決策,最終做出有效的應(yīng)對(duì)措施實(shí)現(xiàn)業(yè)務(wù)目標(biāo)是大數(shù)據(jù)批處理的首要任務(wù)。大數(shù)據(jù)的批量處理系統(tǒng)適用于先存儲(chǔ)后計(jì)算,實(shí)時(shí)性要求不高,同時(shí)數(shù)據(jù)的準(zhǔn)確性和全面性更為重要的場景。
批量數(shù)據(jù)的特征通常有3個(gè)。
第一,數(shù)據(jù)體量巨大。數(shù)據(jù)從TB級(jí)別躍升到PB級(jí)別。數(shù)據(jù)是以靜態(tài)的形式存儲(chǔ)在硬盤中,很少進(jìn)行更新,存儲(chǔ)時(shí)間長,可以重復(fù)利用,然而這樣大批量的數(shù)據(jù)不容易對(duì)其進(jìn)行移動(dòng)和備份。
第二,數(shù)據(jù)精確度高。批量數(shù)據(jù)往往是從應(yīng)用中沉淀下來的數(shù)據(jù),因此精度相對(duì)較高,是企業(yè)資產(chǎn)的一部分寶貴財(cái)富。
第三,數(shù)據(jù)價(jià)值密度低。以視頻批量數(shù)據(jù)為例,在連續(xù)不斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。因此,需要通過合理的算法才能從批量的數(shù)據(jù)中抽取有用的價(jià)值。此外,批量數(shù)據(jù)處理往往比較耗時(shí),而且不提供用戶與系統(tǒng)的交互手段,所以當(dāng)發(fā)現(xiàn)處理結(jié)果和預(yù)期或與以往的結(jié)果有很大差別時(shí),會(huì)浪費(fèi)很多時(shí)間。因此,批量數(shù)據(jù)處理適合大型的相對(duì)比較成熟的作業(yè)。
Google于2010年推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r(shí)數(shù)據(jù)處理邁進(jìn)。實(shí)時(shí)數(shù)據(jù)處理是針對(duì)批量數(shù)據(jù)處理的性能問題提出的,可分為流式數(shù)據(jù)處理和交互式數(shù)據(jù)處理兩種模式。在大數(shù)據(jù)背景下,流式數(shù)據(jù)處理源于服務(wù)器日志的實(shí)時(shí)采集,交互式數(shù)據(jù)處理的目標(biāo)是將PB級(jí)數(shù)據(jù)的處理時(shí)間縮短到秒級(jí)。通俗而言,流式數(shù)據(jù)是一個(gè)無窮的數(shù)據(jù)序列,序列中的每一個(gè)元素來源各異,格式復(fù)雜,序列往往包含時(shí)序特性,或者有其他的有序標(biāo)簽(如IP報(bào)文中的序號(hào))。從數(shù)據(jù)庫的角度而言,每一個(gè)元素可以看作是一個(gè)元組,而元素的特性則類比于元組的屬性。流式數(shù)據(jù)在不同的場景下往往體現(xiàn)出不同的特征,如流速大小、元素特性數(shù)量、數(shù)據(jù)格式等,但大部分流式數(shù)據(jù)都含有共同的特征,這些特征便可用來設(shè)計(jì)通用的流式數(shù)據(jù)處理系統(tǒng)。
下面簡要介紹流式數(shù)據(jù)共有的特征。
首先,流式數(shù)據(jù)的元組通常帶有時(shí)間標(biāo)簽或其余含序?qū)傩。因此,同一流式?shù)據(jù)往往是被按序處理的。然而數(shù)據(jù)的到達(dá)順序是不可預(yù)知的,由于時(shí)間和環(huán)境的動(dòng)態(tài)變化,無法保證重放數(shù)據(jù)流與之前數(shù)據(jù)流中數(shù)據(jù)元素順序的一致性。這就導(dǎo)致了數(shù)據(jù)的物理順序與邏輯順序不一致。而且,數(shù)據(jù)源不受接收系統(tǒng)的控制,數(shù)據(jù)的產(chǎn)生是實(shí)時(shí)的、不可預(yù)知的。此外,數(shù)據(jù)的流速往往有較大的波動(dòng),因此需要系統(tǒng)具有很好的可伸縮性,能夠動(dòng)態(tài)適應(yīng)不確定流入的數(shù)據(jù)流,具有很強(qiáng)的系統(tǒng)計(jì)算能力和大數(shù)據(jù)流量動(dòng)態(tài)匹配的能力。
其次,數(shù)據(jù)流中的數(shù)據(jù)格式可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的甚至是無結(jié)構(gòu)化的。數(shù)據(jù)流中往往含有錯(cuò)誤元素、垃圾信息等。因此流式數(shù)據(jù)的處理系統(tǒng)要有很好的容錯(cuò)性與異構(gòu)數(shù)據(jù)分析能力,能夠完成數(shù)據(jù)的動(dòng)態(tài)清洗、格式處理等。最后,流式數(shù)據(jù)是活動(dòng)的(用完即棄),隨著時(shí)間的推移不斷增長,這與傳統(tǒng)的數(shù)據(jù)處理模型(存儲(chǔ)?查詢)不同,要求系統(tǒng)能夠根據(jù)局部數(shù)據(jù)進(jìn)行計(jì)算,保存數(shù)據(jù)流的動(dòng)態(tài)屬性。流式處理系統(tǒng)針對(duì)該特性,應(yīng)當(dāng)提供流式查詢接口,即提交動(dòng)態(tài)的SQL語句,實(shí)時(shí)地返回當(dāng)前結(jié)果。
與非交互式數(shù)據(jù)處理相比,交互式數(shù)據(jù)處理靈活、直觀、便于控制。系統(tǒng)與操作人員以人機(jī)對(duì)話的方式一問一答——操作人員提出請(qǐng)求,數(shù)據(jù)以對(duì)話的方式輸入,系統(tǒng)便提供相應(yīng)的數(shù)據(jù)或提示信息,引導(dǎo)操作人員逐步完成所需的操作,直至獲得最后處理結(jié)果。采用這種方式,存儲(chǔ)在系統(tǒng)中的數(shù)據(jù)文件能夠被及時(shí)處理修改,同時(shí)處理結(jié)果可以立刻被使用。交互式數(shù)據(jù)處理具備的這些特征能夠保證輸入的信息得到及時(shí)處理,使交互方式繼續(xù)進(jìn)行下去。
圖由于自身的結(jié)構(gòu)特征,可以很好地表示事物之間的關(guān)系,在近幾年已成為各學(xué)科研究的熱點(diǎn)。圖中點(diǎn)和邊的強(qiáng)關(guān)聯(lián)性,需要圖數(shù)據(jù)處理系統(tǒng)對(duì)圖數(shù)據(jù)進(jìn)行一系列的操作,包括圖數(shù)據(jù)的存儲(chǔ)、圖查詢、最短路徑查詢、關(guān)鍵字查詢、圖模式挖掘以及圖數(shù)據(jù)的分類、聚類等。隨著圖中節(jié)點(diǎn)和邊數(shù)的增多(達(dá)到幾千萬甚至上億數(shù)),圖數(shù)據(jù)處理的復(fù)雜性給圖數(shù)據(jù)處理系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn)。下面主要闡述圖數(shù)據(jù)的特征和典型應(yīng)用以及代表性的圖數(shù)據(jù)處理系統(tǒng)。
圖數(shù)據(jù)中主要包括圖中的節(jié)點(diǎn)以及連接節(jié)點(diǎn)的邊,通常具有3個(gè)特征。
第一,節(jié)點(diǎn)之間的關(guān)聯(lián)性。圖中邊的數(shù)量是節(jié)點(diǎn)數(shù)量的指數(shù)倍,因此,節(jié)點(diǎn)和關(guān)系信息同等重要,圖結(jié)構(gòu)的差異也是由于對(duì)邊做了限制,在圖中,頂點(diǎn)和邊實(shí)例化構(gòu)成各種類型的圖,如標(biāo)簽圖、屬性圖、語義圖以及特征圖等。
第二,圖數(shù)據(jù)的種類繁多。在許多領(lǐng)域中,使用圖來表示該鄰域的數(shù)據(jù),如生物、化學(xué)、計(jì)算機(jī)視覺、模式識(shí)別、信息檢索、社會(huì)網(wǎng)絡(luò)、知識(shí)發(fā)現(xiàn)、動(dòng)態(tài)網(wǎng)絡(luò)交通、語義網(wǎng)、情報(bào)分析等。每個(gè)領(lǐng)域?qū)D數(shù)據(jù)的處理需求不同,因此,沒有一個(gè)通用的圖數(shù)據(jù)處理系統(tǒng)滿足所有領(lǐng)域的需求。
第三,圖數(shù)據(jù)計(jì)算的強(qiáng)耦合性。在圖中,數(shù)據(jù)之間是相互關(guān)聯(lián)的,因此,對(duì)圖數(shù)據(jù)的計(jì)算也是相互關(guān)聯(lián)的。這種數(shù)據(jù)耦合的特性對(duì)圖的規(guī)模日益增大達(dá)到上百萬甚至上億節(jié)點(diǎn)的大圖數(shù)據(jù)計(jì)算提出了巨大的挑戰(zhàn)。大圖數(shù)據(jù)是無法使用單臺(tái)機(jī)器進(jìn)行處理的,但如果對(duì)大圖數(shù)據(jù)進(jìn)行并行處理,對(duì)于每一個(gè)頂點(diǎn)之間都是連通的圖來講,難以分割成若干完全獨(dú)立的子圖進(jìn)行獨(dú)立的并行處理;即使可以分割,也會(huì)面臨并行機(jī)器的協(xié)同處理,以及將最后的處理結(jié)果進(jìn)行合并等一系列問題。這需要圖數(shù)據(jù)處理系統(tǒng)選取合適的圖分割以及圖計(jì)算模型來迎接挑戰(zhàn)并解決問題。
四種大數(shù)據(jù)各自的特點(diǎn)和處理方式都記住了嗎,使用的時(shí)候要根據(jù)不同的情況來考量哦。
想要獲取更多大數(shù)據(jù)相關(guān)資訊和知識(shí),關(guān)注微信公眾號(hào)成都科多大數(shù)據(jù)就能看到啦。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市