大數(shù)據(jù)時(shí)代的幾點(diǎn)思考
近年來,大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等概念備受人們追捧,高科技成為各國越來越關(guān)注的一個(gè)戰(zhàn)略重點(diǎn)。隨著互聯(lián)網(wǎng)與計(jì)算機(jī)科技的不斷發(fā)展,越來越多的數(shù)據(jù)在互聯(lián)網(wǎng)終端產(chǎn)生、并被記錄,存儲(chǔ)設(shè)備和云計(jì)算的進(jìn)步極大降低了數(shù)據(jù)存儲(chǔ)成本及數(shù)據(jù)處理成本,使巨量互聯(lián)網(wǎng)數(shù)據(jù)得以保存并用于數(shù)據(jù)分析。且此類巨量數(shù)據(jù)的分析、利用被證明是可以帶來巨大的經(jīng)濟(jì)效益的,由此,大數(shù)據(jù)出現(xiàn)爆發(fā)式的發(fā)展。
人類社會(huì)經(jīng)歷了三次工業(yè)革命,從蒸汽時(shí)代、電氣時(shí)代、到信息時(shí)代。已經(jīng)發(fā)展了半個(gè)多世紀(jì)的信息技術(shù)到現(xiàn)在開始進(jìn)入了信息、數(shù)據(jù)爆炸時(shí)代。正如顯微鏡能觀測(cè)微生物、望遠(yuǎn)鏡能觀測(cè)浩瀚宇宙,大數(shù)據(jù)也為我們提供了一個(gè)前所未有的觀測(cè)世界的角度。比如,2009年谷歌工程師發(fā)表了一遍關(guān)于他們?nèi)绾卫糜脩羲阉饔涗泚眍A(yù)測(cè)冬季流感傳播的論文,文中預(yù)測(cè)的及時(shí)和高效震驚了科學(xué)界和公共衛(wèi)生領(lǐng)域的專家們。相比之下,美國公共衛(wèi)生部門在防治同年爆發(fā)的H1N1流感時(shí),對(duì)流感爆發(fā)地點(diǎn)和傳播路徑的調(diào)查和預(yù)測(cè)方面遇到了巨大困難,現(xiàn)有衛(wèi)生系統(tǒng)信息反饋的滯后為流感防治帶來了極大的困難。
大數(shù)據(jù)時(shí)代的思維變革
在大數(shù)據(jù)時(shí)代,各個(gè)行業(yè)產(chǎn)生了超大量的數(shù)據(jù)積累,量變引起質(zhì)變,使得人們對(duì)于事物規(guī)律的認(rèn)識(shí)和預(yù)測(cè)方式也發(fā)生了質(zhì)的改變,不再依賴盡量精確的抽樣調(diào)查,也不再熱衷追逐某單一方向的精確,不再那么汲汲于因果關(guān)系的探索,而是通過對(duì)整體大數(shù)據(jù)的理解和分析,來獲取自己想要的那一部分關(guān)于世界的真相。
首先,過去計(jì)算機(jī)的存儲(chǔ)和計(jì)算能力有限,人們只能通過抽樣的方式從某個(gè)大范圍的群體中隨機(jī)抽取極少數(shù)的一部分樣本來代表他們,我們的數(shù)理統(tǒng)計(jì)學(xué)理論幾乎都是基于這個(gè)發(fā)展起來的。就像,由于我們內(nèi)存有限,只能將一張高清照片壓縮成低精度的照片來存儲(chǔ),每一次壓縮都會(huì)丟失很多照片原本的信息,且無法找回來。那,在計(jì)算機(jī)存儲(chǔ)能力和計(jì)算能力發(fā)展成熟的時(shí)候,我們完全可以保存這個(gè)事物的所有信息,呈現(xiàn)事物原原本本的整體給大家看。在分析這個(gè)事物的時(shí)候,可以抓取這個(gè)事物的各方面信息而不擔(dān)心失真。這就是利用所有的數(shù)據(jù)而不僅僅是一小部分?jǐn)?shù)據(jù)帶來的優(yōu)勢(shì)。隨機(jī)抽樣調(diào)查可能在某個(gè)范圍內(nèi)對(duì)某種情況的分析具有較強(qiáng)的針對(duì)性,但是在抽樣的過程中動(dòng)用的人力物力資源、如何保證抽樣的隨機(jī)性和準(zhǔn)確性以及每針對(duì)某方面的調(diào)查都需要重新組織抽樣調(diào)查帶來的反復(fù)工作都是很值得反思的問題。
其次,在大數(shù)據(jù)時(shí)代,通常得到的數(shù)據(jù)都是各種信息混雜在一起,也并非所有數(shù)據(jù)都恰如其分地對(duì)應(yīng)用戶的需要,這種混雜性和不精確性在大數(shù)據(jù)中的允許存在的,大數(shù)據(jù)通常通過概率來說話而非“確鑿無疑”。1954年IBM利用穿孔卡片來進(jìn)行機(jī)器翻譯,通過讓電腦學(xué)會(huì)語言的常用規(guī)則來翻譯語言,但是要做到某些語句在具體場(chǎng)景下的含義就顯得非常困難。比如法語中的“bonjour”可能在不同場(chǎng)景、不同語氣下會(huì)有“早上好”、“吃了嗎”、“今天天氣不錯(cuò)”、“喂”?等意思,這在不同語言系統(tǒng)中都是非常常見的事情,對(duì)于機(jī)器翻譯來說就無法通過學(xué)習(xí)常用語言規(guī)則來翻譯。而20世紀(jì)80年代,一個(gè)IBM研究人員提出讓機(jī)器自己估算一個(gè)詞與另一種語言的一個(gè)詞的匹配程度來翻譯,將300多萬句加拿大議會(huì)資料翻譯成英語和法語,短時(shí)間內(nèi)極大提高了機(jī)器翻譯能力。到了2006年谷歌通過全球互聯(lián)網(wǎng)收集全世界的資源來訓(xùn)練計(jì)算機(jī),從各種網(wǎng)站上找對(duì)譯文檔,在經(jīng)過不同質(zhì)量上萬億語料庫的訓(xùn)練,到2012年谷歌數(shù)據(jù)庫涵蓋了60多種語言,能接受14種語言的語音輸入,完成流利的對(duì)等翻譯。它把語言視為能夠判別的可能性數(shù)據(jù),而非語言本身,在龐大的語料庫數(shù)量上,使得它可以完美解決語料庫存在某些錯(cuò)誤數(shù)據(jù)、不夠精確的缺點(diǎn)。
再者,傳統(tǒng)的方式中,我們對(duì)一個(gè)事物的分析和預(yù)測(cè)都是期望通過抽樣調(diào)查認(rèn)識(shí)事物的本質(zhì),事物發(fā)展的因果關(guān)系,利用因果關(guān)系來預(yù)測(cè)未來。在大數(shù)據(jù)時(shí)代不是這樣,因果關(guān)系的獲取需要巨大的投入,需要通過長(zhǎng)時(shí)間的基礎(chǔ)科學(xué)研究,理論分析、試驗(yàn)驗(yàn)證、再到實(shí)際應(yīng)用等一系列過程,所有的這些過程都耗時(shí)耗力。當(dāng)然,這些東西是必要的,但在某些情況下,可能不需要這么大費(fèi)周章就能獲取到我們需要的結(jié)果。我們不需要每件事都知道發(fā)生的緣由是什么,只需要知道這件事情發(fā)生和另一件相關(guān)的事情發(fā)生的相關(guān)關(guān)系,就能通過相關(guān)的事情來預(yù)測(cè)我們想要知道的這件事情發(fā)生的可能性。而大數(shù)據(jù)就是找到這些相關(guān)關(guān)系的絕佳手段,比如,沃爾瑪在自己龐大的數(shù)據(jù)庫中發(fā)現(xiàn),每當(dāng)季節(jié)性颶風(fēng)來臨的時(shí)候,不止手電筒的銷量增加了,蛋撻的銷量也增加了,于是沃爾瑪便把這兩者擺到了一起放在靠近颶風(fēng)防護(hù)用品的旁邊,既方便了客戶又增加了銷量。
大數(shù)據(jù)時(shí)代的商業(yè)變革
大數(shù)據(jù)發(fā)展的核心動(dòng)力來源于人類測(cè)量、記錄和渴望分析了解世界的好奇心,F(xiàn)在信息技術(shù)發(fā)展到一定階段,信息技術(shù)的重點(diǎn)由技術(shù)轉(zhuǎn)向了信息,大數(shù)據(jù)也是計(jì)算機(jī)技術(shù)發(fā)展到一定階段的一個(gè)象征。隨著計(jì)算及存儲(chǔ)能力的提升,使得原本受限于技術(shù)條件無法實(shí)現(xiàn)的傳統(tǒng)信息開始慢慢轉(zhuǎn)向數(shù)據(jù)化,所謂數(shù)據(jù)化就是把現(xiàn)實(shí)中的事物和現(xiàn)象轉(zhuǎn)變?yōu)榭梢灾票矸治龅牧炕问降倪^程,而世間萬物紛繁復(fù)雜,要完成這一過程必須要借助具備更為強(qiáng)大存儲(chǔ)和計(jì)算分析能力的工具來實(shí)現(xiàn),這就是大數(shù)據(jù)時(shí)代產(chǎn)生的背景和時(shí)代需要。地理信息可以數(shù)據(jù)化成為電子地圖、地質(zhì)調(diào)查信息為生活、工程、采礦、航海等提供服務(wù);指紋、虹膜可以成為個(gè)人身份信息驗(yàn)證的絕佳手段;基因測(cè)序信息可以幫助人們更好地了解自己的身體隨年齡和環(huán)境的改變產(chǎn)生的變化、下一代的出生前的健康狀況;社交軟件的信息可以成為分析社會(huì)現(xiàn)象、調(diào)查大眾喜好甚至政治傾向的數(shù)據(jù);可穿戴設(shè)備可以監(jiān)測(cè)人體心跳、呼吸、睡眠、血壓為醫(yī)療健康行業(yè)更好地了解客戶、提供更貼心的服務(wù)創(chuàng)造了條件;甚至地板、座墊亦可以采集微妙的個(gè)人信息來進(jìn)行身份識(shí)別,突發(fā)情況警報(bào)等。
此外,數(shù)據(jù)不再被認(rèn)為是靜止的陳舊的一個(gè)東西,用完之后便失去作用了,數(shù)據(jù)的擁有者不僅僅能在我們已知的某種數(shù)據(jù)用途上獲取商業(yè)價(jià)值,更有可能在未來我們現(xiàn)在無法預(yù)測(cè)的某個(gè)時(shí)間節(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行重組,發(fā)現(xiàn)數(shù)據(jù)蘊(yùn)藏的更大潛能。谷歌街景和GPS數(shù)據(jù)所收集的地理位置信息數(shù)據(jù)一開始的目的僅僅是為了電子地圖和導(dǎo)航服務(wù)的,到了今天卻發(fā)現(xiàn)在無人駕駛領(lǐng)域,這樣的數(shù)據(jù)能發(fā)揮更大的作用,能夠?yàn)闊o人駕駛汽車提供精準(zhǔn)的位置服務(wù)及復(fù)雜場(chǎng)景下計(jì)算機(jī)視覺識(shí)別的訓(xùn)練。發(fā)掘數(shù)據(jù)的潛在商業(yè)價(jià)值、重復(fù)利用數(shù)據(jù)是大數(shù)據(jù)的重要特征。作為數(shù)據(jù)最大采集機(jī)構(gòu)的政府每年要在全國各行業(yè)、全方位統(tǒng)計(jì)各方面信息(包括我們的國家統(tǒng)計(jì)局及各行政主管部門),作為國家發(fā)展評(píng)估和決策的依據(jù),這部分?jǐn)?shù)據(jù)如果能及時(shí)公開與社會(huì)共享,將為國家的發(fā)展和運(yùn)行提供極大幫助。
大數(shù)據(jù)時(shí)代的管理變革
科技的發(fā)展從來不是有百利而無一害的,大數(shù)據(jù)的發(fā)展帶來便利和繁榮的同時(shí)也給我們的個(gè)人隱私造成了極大威脅。我們所有的個(gè)人信息、出行、購物、喜好全被“第三只眼”看得清清楚楚,時(shí)刻面臨著信息泄露、濫用的危險(xiǎn),也飽受被各種推銷電話的騷擾。且大型數(shù)據(jù)公司形成數(shù)據(jù)壟斷,一旦執(zhí)掌這些機(jī)構(gòu)的人出于什么好壞好意的目的,或者獨(dú)裁者利用大數(shù)據(jù)對(duì)人民進(jìn)行監(jiān)控來維護(hù)自己的統(tǒng)治,抹殺異己之聲,將造成不可磨滅的可怕后果。因而,大數(shù)據(jù)發(fā)展的同時(shí),需要相應(yīng)的監(jiān)管條例來管控?cái)?shù)據(jù)的使用,避免數(shù)據(jù)濫用造成的嚴(yán)重后果。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-11.30免費(fèi)預(yù)約申請(qǐng)>>> 燧石技術(shù)-紅外熱成像系列產(chǎn)品試用活動(dòng)
-
11月25日立即預(yù)約>> 【上海線下】設(shè)計(jì),易如反掌—Creo 11發(fā)布巡展
-
11月30日立即試用>> 【有獎(jiǎng)試用】愛德克IDEC-九大王牌安全產(chǎn)品
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
-
限時(shí)免費(fèi)下載立即下載 >>> 2024“機(jī)器人+”行業(yè)應(yīng)用創(chuàng)新發(fā)展藍(lán)皮書
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市