訂閱
糾錯
加入自媒體

人工智能,不許網(wǎng)絡(luò)再丟包

在丟包率為0.1%的傳統(tǒng)以太網(wǎng)中,我們生活安然,并無不適。而現(xiàn)在,人工智能(AI)帶來的數(shù)據(jù)量激增改變了這一切。

那些以太網(wǎng)曾經(jīng)看來微不足道的“茍且”開始變得如鯁在喉,它讓人們越來越無法忍受。至少對于那些以AI為生的公司和個(gè)人而言,情勢正變得越來越緊迫:

根據(jù)華為GIV 2025(Global Industry Vision)的預(yù)測,企業(yè)對AI的采用率將從2015年的16%達(dá)到2025年86%,彼時(shí),新增數(shù)據(jù)量達(dá)到180ZB,95%的非結(jié)構(gòu)化數(shù)據(jù)(語音/視頻等)依賴AI處理,越來越多的企業(yè)將利用AI輔助決策、重塑商業(yè)模式與生態(tài)系統(tǒng),并重建客戶體驗(yàn)。

一項(xiàng)實(shí)測支持的業(yè)務(wù)觀察顯示,因?yàn)锳I業(yè)務(wù)帶動的數(shù)據(jù)量高速增長,0.1%的以太網(wǎng)丟包率會導(dǎo)致AI的計(jì)算力損失約50%——面向AI,在計(jì)算和存儲領(lǐng)域已經(jīng)取得突破之后,這一現(xiàn)實(shí)讓網(wǎng)絡(luò)設(shè)備供應(yīng)商感受到了前所未有的壓力。

為提升AI運(yùn)行效率,過去數(shù)年間,閃存已經(jīng)大范圍進(jìn)入存儲領(lǐng)域,它讓數(shù)據(jù)存儲的時(shí)延降低超過了100倍;在計(jì)算領(lǐng)域,GPU等主要服務(wù)于AI的芯片也將數(shù)據(jù)處理能力提升了100倍以上。

在ICT領(lǐng)域,AI的短板眼下只剩下一塊——網(wǎng)絡(luò)設(shè)備。針對這一問題,華為網(wǎng)絡(luò)產(chǎn)品線總裁胡克文認(rèn)為,面向AI的未來,網(wǎng)絡(luò)設(shè)備應(yīng)該做到“強(qiáng)制性”的零丟包。

每家ICT廠商都是努力做著同一件事情,生產(chǎn)出這類適應(yīng)AI需求的網(wǎng)絡(luò)設(shè)備,全球范圍概莫能外。它意味著巨大的挑戰(zhàn)與創(chuàng)新,也意味著可見的、巨大的市場回報(bào)。

7天的訓(xùn)練,4天完成

如今,圍繞這塊短板,華為再次領(lǐng)先了。在上周的春季新品發(fā)布會上,它推出了植入高能效AI芯片的新款交換機(jī)CloudEngine 16800。

CloudEngine 16800發(fā)布現(xiàn)場

這款業(yè)界首款面向AI時(shí)代的計(jì)算中心交換機(jī),可以借助其實(shí)時(shí)學(xué)習(xí)訓(xùn)練能力和獨(dú)創(chuàng)的iLossLess智能無損交換算法,在以太網(wǎng)中實(shí)現(xiàn)零丟包機(jī)制,并實(shí)現(xiàn)流量模型的自適應(yīng)自優(yōu)化。

2018年,華為輪值董事長徐直軍宣布,華為將AI定位為新的通用技術(shù),并發(fā)布了AI發(fā)展戰(zhàn)略,全面將AI技術(shù)引入到智能終端、云和網(wǎng)絡(luò)等各個(gè)領(lǐng)域。

CloudEngine 16800能通過AI技術(shù)的應(yīng)用實(shí)現(xiàn)突破,顯然直接受惠于此戰(zhàn)略的執(zhí)行;贏I技術(shù),該款產(chǎn)品在網(wǎng)絡(luò)調(diào)優(yōu)上實(shí)現(xiàn)了智能化:一個(gè)是單流局部調(diào)優(yōu),另一個(gè)是整網(wǎng)全局調(diào)優(yōu)。

如果將網(wǎng)絡(luò)視作一個(gè)城市的交通網(wǎng),前者實(shí)現(xiàn)了在一個(gè)十字路口智能調(diào)整紅綠燈時(shí)間的功能;而后者,則實(shí)現(xiàn)了動態(tài)關(guān)聯(lián)調(diào)整全市紅綠燈時(shí)間的功能。

據(jù)測算,這一系列AI技術(shù)的應(yīng)用,不止在用戶端將AI算力從50%提升到100%,同時(shí)還將數(shù)據(jù)存儲IOPS的性能提升了30%.

一家互聯(lián)網(wǎng)巨頭已經(jīng)對這款新品進(jìn)行了測試,業(yè)務(wù)內(nèi)容則是當(dāng)下方興未艾的無人駕駛AI訓(xùn)練。

訓(xùn)練的效果讓人們大吃一驚——以往1天運(yùn)行的數(shù)據(jù)需要訓(xùn)練7天才能完成,而現(xiàn)在,這家公司只用了4天。對于高速的商業(yè)競爭而言,這幾乎是直接為用戶提供了一種接近核心的競爭力。

做一臺AI時(shí)代的交換機(jī)

華為也因此將“內(nèi)嵌AI芯片”定義成了AI時(shí)代數(shù)據(jù)中心交換機(jī)的三大特征之一。在其最新定義中,另外兩項(xiàng)特征則分別是“單槽48 x 400GE高密端口”,和“能夠向自動駕駛網(wǎng)絡(luò)演進(jìn)的能力”。

“如果這三大特征,你不符合的話,你可能就不是面向AI時(shí)代的數(shù)據(jù)中心交換機(jī)!焙宋恼f。

2012年華為發(fā)布了100GE的正交架構(gòu)產(chǎn)品CloudEngine12800數(shù)據(jù)中心交換機(jī),并在此后一路高歌猛進(jìn)。從2016年起,華為的數(shù)據(jù)中心交換機(jī)已連續(xù)三年蟬聯(lián)市場份額第一。2018年,在標(biāo)志最高應(yīng)用標(biāo)準(zhǔn)的金融行業(yè),華為數(shù)據(jù)中心交換機(jī)也坐上了頭把交椅。

新品特性應(yīng)對AI時(shí)代的3大挑戰(zhàn)

華為在技術(shù)創(chuàng)新上的投入一直為外界稱道,并被視為華為企業(yè)基因式的存在。但這種基因以何種形式在機(jī)體中發(fā)揮作用,外界通常知之甚少。在這一點(diǎn)上,CloudEngine 16800為實(shí)現(xiàn)跨越式硬件平臺升級所做的技術(shù)準(zhǔn)備,則可以清晰地顯現(xiàn)出這一基因的“運(yùn)作”方式。

為滿足AI時(shí)代流量倍增的需求,CloudEngine 16800單槽位提供了業(yè)界最高密度48端口400GE線卡,單機(jī)則提供業(yè)界最大的768端口400GE交換容量,這一交換能力是業(yè)界平均的5倍。

其中,針對400GE接口的標(biāo)準(zhǔn)化工作,華為早在2015年便已經(jīng)啟動——考慮到企業(yè)AI等新型業(yè)務(wù)驅(qū)動了數(shù)據(jù)中服務(wù)器從10G到25G甚至100G的切換,華為判斷行業(yè)必然要求交換機(jī)支持400G接口,400GE接口標(biāo)準(zhǔn)化工作于2015年啟動,并針對數(shù)據(jù)中心應(yīng)用完成了標(biāo)準(zhǔn)化。

此外,在新材料新工藝、能效和散熱等領(lǐng)域,CloudEngine 16800的創(chuàng)新林林總總,不勝枚舉。例如,在用戶直接可見的節(jié)能方面,與業(yè)界相比,新品可將平均每bit數(shù)據(jù)的功耗降低50%,這相當(dāng)于每臺每年節(jié)省32萬度電,約合電費(fèi)26萬元。

自動駕駛從秒級識別開始

另一項(xiàng)用戶可以直接感受到的革新,同樣來自于AI技術(shù)的應(yīng)用。這種用戶可感知的能力被稱為“能夠向自動駕駛網(wǎng)絡(luò)演進(jìn)的能力”。

在傳統(tǒng)數(shù)據(jù)中心,在接到故障告警后,技術(shù)人員必須依靠人工排查的運(yùn)維手段定位故障,如果不夠幸運(yùn),一項(xiàng)故障排查通常需要數(shù)小時(shí),甚至更長的時(shí)間。這在業(yè)務(wù)部門看來,顯然是無法接受的——它無法面向一個(gè)充滿挑戰(zhàn)的AI時(shí)代。

和解決丟包問題一樣,華為將問題“交還”給了AI,期待自動駕駛網(wǎng)絡(luò)能夠徹底改變運(yùn)維人員面對的窘境。

現(xiàn)實(shí)中,汽車領(lǐng)域的自動駕駛技術(shù)正經(jīng)歷著高速的演進(jìn),要在網(wǎng)絡(luò)世界實(shí)現(xiàn)自動駕駛,進(jìn)程同樣存在,一步到位并不現(xiàn)實(shí)。在這一點(diǎn)上,胡克文相當(dāng)樂觀:只要有夢想和追求,未來就一定能實(shí)現(xiàn)。

“首先,能不能做到在秒級(時(shí)長)中把故障識別出來?(那樣,IT人員的)壓力就會小很多!彼f。

要實(shí)現(xiàn)自動駕駛網(wǎng)絡(luò),供應(yīng)商至少要在算法、數(shù)據(jù)和本地推理與執(zhí)行等領(lǐng)域同步推進(jìn),并在軟硬件技術(shù)端實(shí)現(xiàn)AI的閉環(huán)。

據(jù)胡克文透露,目前華為相關(guān)的iNetOps智能運(yùn)維算法已經(jīng)可以支持72大類典型故障,在盲測中,它支持的故障定位準(zhǔn)確率超過了90%.

結(jié)合這些軟實(shí)力,以及內(nèi)置AI芯片提供的硬支持,華為最終在CloudEngine 16800中大幅度提升了“網(wǎng)絡(luò)邊緣”即設(shè)備級的智能化水平,使得交換機(jī)具備了本地推理和實(shí)時(shí)快速決策的能力。通過本地智能和集中的FabricInsight網(wǎng)絡(luò)分析器,CloudEngine 16800構(gòu)建了一個(gè)分布式AI運(yùn)維架構(gòu),并最終實(shí)現(xiàn)了秒級故障識別和分鐘級故障自動定位。

這一系列的努力,最終讓CloudEngine 16800在AI時(shí)代背景下展現(xiàn)出了它與眾不同的一面。

在同一背景下,數(shù)據(jù)中心已經(jīng)成為了AI的“孵化工廠”;現(xiàn)在,要讓這個(gè)AI在企業(yè)數(shù)字化轉(zhuǎn)型中扮演更為重要的角色,“孵化工廠”的升級也已進(jìn)入了時(shí)間的節(jié)點(diǎn)。

或許,就像華為所努力的方向一樣,“孵化工廠們”也是時(shí)候考慮如何建設(shè)一個(gè)自動駕駛的高性能網(wǎng)絡(luò)來提升AI算力,并最終實(shí)現(xiàn)AI業(yè)務(wù)的加速了。畢竟,AI時(shí)代的網(wǎng)絡(luò),斷然不會接受“茍且”。

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號