訂閱
糾錯
加入自媒體

2021年度AI服務(wù)器的巔峰對決

時至12月,又到了盤點(diǎn)、總結(jié)的時候了。遙記當(dāng)年DIY最火的時代,年底都要做的是硬件產(chǎn)品橫評與盤點(diǎn)等重要選題,從消費(fèi)者到廠商都能通過對比來了解產(chǎn)品的性能與市場表現(xiàn),從而為選擇、研發(fā)下一代產(chǎn)品積累經(jīng)驗(yàn)。

我們再來看看企業(yè)級市場,近20年來它的變化速度飛快,從x86服務(wù)器興起開始,多核算力、云計(jì)算、大數(shù)據(jù)、人工智能、容器等等技術(shù)實(shí)現(xiàn)了一次又一次的突破,也為數(shù)字化的未來寫下了一頁頁濃墨重彩的傳奇。

企業(yè)級市場發(fā)展至今,可以看到無論是技術(shù)還是產(chǎn)品,整體趨勢都無一例外地朝向應(yīng)用。CPU、GPU、DPU、存儲都不再是單一的衡量標(biāo)準(zhǔn),企業(yè)級用戶關(guān)注的應(yīng)用,或者說是能夠在什么樣的成本下,提供為我所需的性能,這才是最重要的一點(diǎn)。

2021 MLPerf?人工智能測試收官之作

正是因?yàn)槿绱,MLPerf?測試才應(yīng)運(yùn)而生地成為了新一代標(biāo)桿,它所衡量的是服務(wù)器在人工智能相關(guān)領(lǐng)域應(yīng)用的性能表現(xiàn),極具實(shí)戰(zhàn)價值,因此也備受業(yè)界關(guān)注。

MLPerf?是影響力最廣的國際AI性能基準(zhǔn)評測,由圖靈獎得主大衛(wèi)?帕特森(David Patterson)聯(lián)合頂尖學(xué)術(shù)機(jī)構(gòu)發(fā)起成立。2020年,非盈利性機(jī)器學(xué)習(xí)開放組織MLCommons基于MLPerf?基準(zhǔn)測試成立,其成員包括谷歌、Facebook、英偉達(dá)、英特爾、浪潮、哈佛大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校等50余家全球AI領(lǐng)軍企業(yè)及頂尖學(xué)術(shù)機(jī)構(gòu),致力于推進(jìn)機(jī)器學(xué)習(xí)和人工智能標(biāo)準(zhǔn)及衡量指標(biāo)。

目前,MLCommons每年組織2次MLPerf? AI訓(xùn)練性能測試和2次MLPerf? AI推理性能測試,為用戶衡量設(shè)備性能提供權(quán)威有效的數(shù)據(jù)指導(dǎo)。

MLPerf?基準(zhǔn)測試分為固定任務(wù)(Closed Model Division)和開放任務(wù)(Open Model Division)兩個分區(qū)。

固定任務(wù)是通過相同的模型、優(yōu)化器及參數(shù)值測試深度學(xué)習(xí)在不同服務(wù)器上的性能表現(xiàn),類似于我們?nèi)粘?吹降挠布悓Ρ仍u測。而開放任務(wù)則對深度學(xué)習(xí)模型及精度不做過多約束,重點(diǎn)考察服務(wù)器廠商對深度學(xué)習(xí)模型及算法的優(yōu)化能力,推進(jìn)ML模型和優(yōu)化的創(chuàng)新。

固定任務(wù)(Closed)強(qiáng)調(diào)AI計(jì)算系統(tǒng)的公平比較,競賽衡量的是同一深度學(xué)習(xí)模型在不同硬件上的性能,重點(diǎn)考察參測廠商硬件系統(tǒng)和軟件優(yōu)化的能力。

既然MLPerf?每年組織4次AI相關(guān)測試,那么年底這次當(dāng)然就屬重頭戲了,業(yè)界對此的關(guān)注度也非常之高。12月1日,MLPerf?公布了最新一期訓(xùn)練(Training)榜單V1.1,此次共有谷歌、微軟云、英偉達(dá)、浪潮信息、百度、戴爾等14家公司及科研機(jī)構(gòu),參與MLPerf?基準(zhǔn)測試,全部都是國際大廠,可謂華山論劍。共提交180項(xiàng)固定任務(wù)(Closed)成績,6項(xiàng)開放任務(wù)(Open)成績。

在單機(jī)測試的8項(xiàng)任務(wù)中,浪潮信息獲7項(xiàng)冠軍,英偉達(dá)獲1項(xiàng)冠軍;在集群測試的8項(xiàng)任務(wù)中,英偉達(dá)獲7項(xiàng)冠軍,微軟云獲1項(xiàng)冠軍。

實(shí)戰(zhàn)應(yīng)用場景,用計(jì)算力推動深度學(xué)習(xí)

正如前文所述,本次MLPerf?基準(zhǔn)評測涵蓋了8類極具代表性的機(jī)器學(xué)習(xí)任務(wù),分別是圖像分類(ResNet)、醫(yī)學(xué)影像分割(U-Net3D)、目標(biāo)物體檢測(SSD)、目標(biāo)物體檢測(Mask R-CNN)、語音識別(RNN-T)、自然語言理解(BERT)、智能推薦(DLRM)以及強(qiáng)化學(xué)習(xí)(MiniGo)。

為什么MLPerf?的AI性能測試受關(guān)注度如此高?

還不是因?yàn)樗钯N近用戶使用場景嘛!這一點(diǎn)尤為重要。

這就如同我們挑選智能手機(jī),市場中的機(jī)型幾百、上千款,它們的設(shè)計(jì)、定位本身就有著很大不同。白領(lǐng)注重品質(zhì)和可靠性、游戲玩家關(guān)注性能、年輕人喜歡拍照、學(xué)生更關(guān)注性價比,根據(jù)自己的使用場景進(jìn)行選擇,這樣才能做到定位精準(zhǔn)。MLPerf?的應(yīng)用場景式評測,也是意在于此。

場景一:圖像分類(ResNet)

ResNet是非常經(jīng)典的深度學(xué)習(xí)模型,它也被稱為最典型的計(jì)算機(jī)視覺應(yīng)用。將海量圖片識別后標(biāo)記,然后進(jìn)行分類,這種應(yīng)用場景非常便捷與高效,ResNet考察的就是服務(wù)器在這項(xiàng)模型訓(xùn)練中的表現(xiàn)。

實(shí)戰(zhàn)應(yīng)用場景,2021年度AI服務(wù)器的巔峰對決

圖像分類(ResNet)任務(wù)單機(jī)訓(xùn)練成績排名

從上圖可以看到,浪潮信息的兩款經(jīng)典服務(wù)器拿下了前兩名位置,NF5488A5性能最高,NF5688M6排名第二。Supermicro的8卡A100-SXM4-80GB(500W)機(jī)型性能較NF5488A5低1.6%,排名第三。

看到這里可能有人會產(chǎn)生疑問,為什么只有浪潮和超微用500W的GPU?對于其他廠商而言是不是有些不公平?

其實(shí),這恰恰證明了它們強(qiáng)大的研發(fā)實(shí)力。因?yàn)槔顺笔堑谝粋在服務(wù)器中實(shí)現(xiàn)8塊500W功耗GPU部署的廠商,并提供液冷與風(fēng)冷兩種機(jī)型,同期其他品牌的產(chǎn)品大都僅做到了部署4塊500W GPU。本次測試,超微是第二家以8塊500W GPU服務(wù)器參賽的廠商。

GPU從300W到400W再發(fā)展至500W,多張卡同時部署的時候,對服務(wù)器內(nèi)有限的空間提出了更高散熱需求,因此供電與散熱方面設(shè)計(jì)難度非常高。也正是因?yàn)槿绱,在評測中,才能夠觀察出各家企業(yè)、機(jī)構(gòu)參賽產(chǎn)品的設(shè)計(jì)、研發(fā)能力。

場景二:醫(yī)學(xué)影像分割(U-Net3D)

患者到醫(yī)院拍了醫(yī)學(xué)影像,包括X光、超聲、CT和MRI等,AI可以在很短時間內(nèi)對分割后的影像進(jìn)行分析,給出合理的初步診斷、分析及預(yù)測,為診斷提供便利。

醫(yī)學(xué)影像分割是醫(yī)學(xué)影像智能分析中的重要領(lǐng)域,也是計(jì)算機(jī)輔助診斷、監(jiān)視、干預(yù)和治療所必需的一環(huán),其關(guān)鍵任務(wù)是對醫(yī)學(xué)影像中器官或病變進(jìn)行分割,為疾病的精準(zhǔn)識別、詳細(xì)分析、合理診斷、預(yù)測與預(yù)防等方面提供非常重要的意義和價值。

該項(xiàng)測試主要還是面向數(shù)據(jù)訓(xùn)練,考驗(yàn)服務(wù)器的硬實(shí)力。

實(shí)戰(zhàn)應(yīng)用場景,2021年度AI服務(wù)器的巔峰對決

醫(yī)學(xué)影像分割(U-Net3D)任務(wù)單機(jī)訓(xùn)練成績排名

三維醫(yī)學(xué)圖像分割任務(wù)3D U-Net模型的整機(jī)性能對比。浪潮信息此次僅提交了NF5688M6的結(jié)果,可以看到其性能領(lǐng)先第二名GIGABYTE約4.7%。領(lǐng)先第三名Supermicro約7.7%。相對而言該項(xiàng)測試計(jì)算任務(wù)比較繁重,因此各款產(chǎn)品也拉開了較明顯的差距。

場景三:語音識別(RNN-T)

在一場規(guī)模龐大的線上會議中,演講者所說的內(nèi)容全部實(shí)時顯示在屏幕上,既清晰又精準(zhǔn)。現(xiàn)在,這樣的場景已經(jīng)無需人力,僅僅通過AI就能實(shí)現(xiàn)了。它的背后,就是語音識別的功勞。

RNN-T模型巧妙的將語言模型聲學(xué)模型整合在一起,同時進(jìn)行聯(lián)合優(yōu)化,是一種理論上相對完美的模型結(jié)構(gòu)。它通過聯(lián)合網(wǎng)絡(luò)將語言模型和聲學(xué)模型的狀態(tài)通過某種思路結(jié)合在一起,可以是拼接操作,也可以是直接相加等,因此也更加精準(zhǔn)。

實(shí)戰(zhàn)應(yīng)用場景,2021年度AI服務(wù)器的巔峰對決

語音識別(RNN-T)任務(wù)單機(jī)訓(xùn)練成績排名

語音識別RNNT任務(wù)訓(xùn)練的整機(jī)性能對比?梢钥吹絅F5488A5性能第一,領(lǐng)先第二名NVIDIA約2.6%,領(lǐng)先第三名Microsoft約12.5%。這項(xiàng)測試可以說兼顧了深度學(xué)習(xí)的多種模型整合,復(fù)雜程度較高,浪潮NF5488A5憑借硬實(shí)力也創(chuàng)造了新的紀(jì)錄。

上述這三種場景測試僅僅是冰山一角,在MLPerf?基準(zhǔn)測試中共涵蓋了8項(xiàng)最貼近應(yīng)用場景的機(jī)器學(xué)習(xí)相關(guān)任務(wù),這也是其被譽(yù)為極具實(shí)戰(zhàn)價值的關(guān)鍵所在。

浪潮AI服務(wù)器,2021收獲滿滿

作為業(yè)內(nèi)最權(quán)威的AI基準(zhǔn)測試,MLPerf?每年組織AI推理及AI訓(xùn)練性能測試各2次。12月1日結(jié)果的公布,這也意味著MLPerf? 2021年度4次測試正式收官。本年度共29家國際廠商、研究機(jī)構(gòu)參與其中,在數(shù)據(jù)中心推理、邊緣推理、集群訓(xùn)練和單機(jī)訓(xùn)練各類AI場景下,不斷突破AI系統(tǒng)性能。其中,浪潮信息共斬獲44項(xiàng)冠軍,名列MLPerf? 2021年度冠軍榜首,英偉達(dá)、戴爾、高通分列第二、第三、第四。

實(shí)戰(zhàn)應(yīng)用場景,2021年度AI服務(wù)器的巔峰對決

仔細(xì)觀察不難發(fā)現(xiàn),參賽的廠商與機(jī)構(gòu)所選擇的硬件基本類似,想獲得更高的性能,只能靠系統(tǒng)設(shè)計(jì)與優(yōu)化能力,這里并無捷徑而言。浪潮信息在AI服務(wù)器設(shè)計(jì)與優(yōu)化方面深耕多年,因此才具備如此強(qiáng)勁的硬實(shí)力。

在硬件設(shè)計(jì)方面,針對AI任務(wù)中常見的密集IO傳輸瓶頸,浪潮AI服務(wù)器以領(lǐng)先設(shè)計(jì)大幅降低通信延遲,極大提升了AI訓(xùn)練效率。同時,針對高負(fù)載多GPU協(xié)同任務(wù)調(diào)度,對NUMA節(jié)點(diǎn)與GPU之間的數(shù)據(jù)傳輸進(jìn)行全面優(yōu)化和深度調(diào)校,確保訓(xùn)練任務(wù)中的數(shù)據(jù)IO無阻塞。此外,在散熱層面,A100-SXM-80GB(500W) GPU這款產(chǎn)品功耗非常高,為此浪潮開發(fā)了先進(jìn)冷板液冷系統(tǒng),確保GPU在全功率負(fù)載下依然穩(wěn)定工作,也是讓AI服務(wù)器在各種測試中表現(xiàn)出色的重要原因之一。

對于浪潮AI服務(wù)器產(chǎn)品而言,兩款主力機(jī)型NF5488A5和NF5688M6在本年度MLPerf?測試中分別斬獲18和15項(xiàng)冠軍,它們的成功并非一蹴而就,而是眾多研發(fā)設(shè)計(jì)人員共同努力之下,再輔以多年來的技術(shù)積累,所結(jié)出的成果當(dāng)然極具實(shí)力。

MLPerf?的評測,可以說在整個2021年度為IT行業(yè)點(diǎn)燃了一盞明燈,指引大家將關(guān)注重點(diǎn)放在AI實(shí)戰(zhàn)上,而并非硬件指標(biāo)。此次V1.1榜單也可看作是AI服務(wù)器的盤點(diǎn)與總結(jié),極具參考和實(shí)戰(zhàn)價值。從MLPerf?測試本身來看,很多優(yōu)秀的硬件產(chǎn)品在不同階段測試中表現(xiàn)出了強(qiáng)勁的實(shí)力,并在各種優(yōu)化之后一次又一次地實(shí)現(xiàn)“刷榜”,這也是行業(yè)用戶最想看到的一點(diǎn)。在測試中不斷強(qiáng)大的AI服務(wù)器能夠幫助用戶更高效地完成訓(xùn)練,并且可以嘗試以前無法企及的任務(wù),為AI在不同領(lǐng)域的快速發(fā)展注入新活力。

浪潮AI服務(wù)器在中國市場份額已連續(xù)五年穩(wěn)居第一,目前全球市場份額也是第一。浪潮信息在MLPerf?中能夠取得優(yōu)異的成績,再次證明了自身研發(fā)實(shí)力,并在實(shí)戰(zhàn)應(yīng)用場景方面有了更加深入的洞察和理解。此外,浪潮信息在MLPerf?測試中的探索和創(chuàng)新,也進(jìn)一步幫助浪潮能夠在實(shí)際應(yīng)用中更好地回饋行業(yè)客戶,助力其業(yè)務(wù)發(fā)展,并以此推動AI快速前行。

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號