訂閱
糾錯
加入自媒體

大數據時代的幾點思考

近年來,大數據、物聯(lián)網、人工智能等概念備受人們追捧,高科技成為各國越來越關注的一個戰(zhàn)略重點。隨著互聯(lián)網與計算機科技的不斷發(fā)展,越來越多的數據在互聯(lián)網終端產生、并被記錄,存儲設備和云計算的進步極大降低了數據存儲成本及數據處理成本,使巨量互聯(lián)網數據得以保存并用于數據分析。且此類巨量數據的分析、利用被證明是可以帶來巨大的經濟效益的,由此,大數據出現爆發(fā)式的發(fā)展。

人類社會經歷了三次工業(yè)革命,從蒸汽時代、電氣時代、到信息時代。已經發(fā)展了半個多世紀的信息技術到現在開始進入了信息、數據爆炸時代。正如顯微鏡能觀測微生物、望遠鏡能觀測浩瀚宇宙,大數據也為我們提供了一個前所未有的觀測世界的角度。比如,2009年谷歌工程師發(fā)表了一遍關于他們如何利用用戶搜索記錄來預測冬季流感傳播的論文,文中預測的及時和高效震驚了科學界和公共衛(wèi)生領域的專家們。相比之下,美國公共衛(wèi)生部門在防治同年爆發(fā)的H1N1流感時,對流感爆發(fā)地點和傳播路徑的調查和預測方面遇到了巨大困難,現有衛(wèi)生系統(tǒng)信息反饋的滯后為流感防治帶來了極大的困難。

大數據時代的思維變革

在大數據時代,各個行業(yè)產生了超大量的數據積累,量變引起質變,使得人們對于事物規(guī)律的認識和預測方式也發(fā)生了質的改變,不再依賴盡量精確的抽樣調查,也不再熱衷追逐某單一方向的精確,不再那么汲汲于因果關系的探索,而是通過對整體大數據的理解和分析,來獲取自己想要的那一部分關于世界的真相。

首先,過去計算機的存儲和計算能力有限,人們只能通過抽樣的方式從某個大范圍的群體中隨機抽取極少數的一部分樣本來代表他們,我們的數理統(tǒng)計學理論幾乎都是基于這個發(fā)展起來的。就像,由于我們內存有限,只能將一張高清照片壓縮成低精度的照片來存儲,每一次壓縮都會丟失很多照片原本的信息,且無法找回來。那,在計算機存儲能力和計算能力發(fā)展成熟的時候,我們完全可以保存這個事物的所有信息,呈現事物原原本本的整體給大家看。在分析這個事物的時候,可以抓取這個事物的各方面信息而不擔心失真。這就是利用所有的數據而不僅僅是一小部分數據帶來的優(yōu)勢。隨機抽樣調查可能在某個范圍內對某種情況的分析具有較強的針對性,但是在抽樣的過程中動用的人力物力資源、如何保證抽樣的隨機性和準確性以及每針對某方面的調查都需要重新組織抽樣調查帶來的反復工作都是很值得反思的問題。

其次,在大數據時代,通常得到的數據都是各種信息混雜在一起,也并非所有數據都恰如其分地對應用戶的需要,這種混雜性和不精確性在大數據中的允許存在的,大數據通常通過概率來說話而非“確鑿無疑”。1954年IBM利用穿孔卡片來進行機器翻譯,通過讓電腦學會語言的常用規(guī)則來翻譯語言,但是要做到某些語句在具體場景下的含義就顯得非常困難。比如法語中的“bonjour”可能在不同場景、不同語氣下會有“早上好”、“吃了嗎”、“今天天氣不錯”、“喂”?等意思,這在不同語言系統(tǒng)中都是非常常見的事情,對于機器翻譯來說就無法通過學習常用語言規(guī)則來翻譯。而20世紀80年代,一個IBM研究人員提出讓機器自己估算一個詞與另一種語言的一個詞的匹配程度來翻譯,將300多萬句加拿大議會資料翻譯成英語和法語,短時間內極大提高了機器翻譯能力。到了2006年谷歌通過全球互聯(lián)網收集全世界的資源來訓練計算機,從各種網站上找對譯文檔,在經過不同質量上萬億語料庫的訓練,到2012年谷歌數據庫涵蓋了60多種語言,能接受14種語言的語音輸入,完成流利的對等翻譯。它把語言視為能夠判別的可能性數據,而非語言本身,在龐大的語料庫數量上,使得它可以完美解決語料庫存在某些錯誤數據、不夠精確的缺點。

再者,傳統(tǒng)的方式中,我們對一個事物的分析和預測都是期望通過抽樣調查認識事物的本質,事物發(fā)展的因果關系,利用因果關系來預測未來。在大數據時代不是這樣,因果關系的獲取需要巨大的投入,需要通過長時間的基礎科學研究,理論分析、試驗驗證、再到實際應用等一系列過程,所有的這些過程都耗時耗力。當然,這些東西是必要的,但在某些情況下,可能不需要這么大費周章就能獲取到我們需要的結果。我們不需要每件事都知道發(fā)生的緣由是什么,只需要知道這件事情發(fā)生和另一件相關的事情發(fā)生的相關關系,就能通過相關的事情來預測我們想要知道的這件事情發(fā)生的可能性。而大數據就是找到這些相關關系的絕佳手段,比如,沃爾瑪在自己龐大的數據庫中發(fā)現,每當季節(jié)性颶風來臨的時候,不止手電筒的銷量增加了,蛋撻的銷量也增加了,于是沃爾瑪便把這兩者擺到了一起放在靠近颶風防護用品的旁邊,既方便了客戶又增加了銷量。

大數據時代的商業(yè)變革

大數據發(fā)展的核心動力來源于人類測量、記錄和渴望分析了解世界的好奇心,F在信息技術發(fā)展到一定階段,信息技術的重點由技術轉向了信息,大數據也是計算機技術發(fā)展到一定階段的一個象征。隨著計算及存儲能力的提升,使得原本受限于技術條件無法實現的傳統(tǒng)信息開始慢慢轉向數據化,所謂數據化就是把現實中的事物和現象轉變?yōu)榭梢灾票矸治龅牧炕问降倪^程,而世間萬物紛繁復雜,要完成這一過程必須要借助具備更為強大存儲和計算分析能力的工具來實現,這就是大數據時代產生的背景和時代需要。地理信息可以數據化成為電子地圖、地質調查信息為生活、工程、采礦、航海等提供服務;指紋、虹膜可以成為個人身份信息驗證的絕佳手段;基因測序信息可以幫助人們更好地了解自己的身體隨年齡和環(huán)境的改變產生的變化、下一代的出生前的健康狀況;社交軟件的信息可以成為分析社會現象、調查大眾喜好甚至政治傾向的數據;可穿戴設備可以監(jiān)測人體心跳、呼吸、睡眠、血壓為醫(yī)療健康行業(yè)更好地了解客戶、提供更貼心的服務創(chuàng)造了條件;甚至地板、座墊亦可以采集微妙的個人信息來進行身份識別,突發(fā)情況警報等。

此外,數據不再被認為是靜止的陳舊的一個東西,用完之后便失去作用了,數據的擁有者不僅僅能在我們已知的某種數據用途上獲取商業(yè)價值,更有可能在未來我們現在無法預測的某個時間節(jié)點對數據進行重組,發(fā)現數據蘊藏的更大潛能。谷歌街景和GPS數據所收集的地理位置信息數據一開始的目的僅僅是為了電子地圖和導航服務的,到了今天卻發(fā)現在無人駕駛領域,這樣的數據能發(fā)揮更大的作用,能夠為無人駕駛汽車提供精準的位置服務及復雜場景下計算機視覺識別的訓練。發(fā)掘數據的潛在商業(yè)價值、重復利用數據是大數據的重要特征。作為數據最大采集機構的政府每年要在全國各行業(yè)、全方位統(tǒng)計各方面信息(包括我們的國家統(tǒng)計局及各行政主管部門),作為國家發(fā)展評估和決策的依據,這部分數據如果能及時公開與社會共享,將為國家的發(fā)展和運行提供極大幫助。

大數據時代的管理變革

科技的發(fā)展從來不是有百利而無一害的,大數據的發(fā)展帶來便利和繁榮的同時也給我們的個人隱私造成了極大威脅。我們所有的個人信息、出行、購物、喜好全被“第三只眼”看得清清楚楚,時刻面臨著信息泄露、濫用的危險,也飽受被各種推銷電話的騷擾。且大型數據公司形成數據壟斷,一旦執(zhí)掌這些機構的人出于什么好壞好意的目的,或者獨裁者利用大數據對人民進行監(jiān)控來維護自己的統(tǒng)治,抹殺異己之聲,將造成不可磨滅的可怕后果。因而,大數據發(fā)展的同時,需要相應的監(jiān)管條例來管控數據的使用,避免數據濫用造成的嚴重后果。

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網安備 44030502002758號