訂閱
糾錯
加入自媒體

存算一體芯片邁進(jìn)開源

前言:

存算一體架構(gòu)正受到學(xué)界、產(chǎn)界等各方的熱議。

智能化時代的算力需求和計(jì)算服務(wù)業(yè)態(tài)正在發(fā)生變革的背景下,巨頭IDM廠商和國內(nèi)新銳的算力芯片廠商都在探索存算一體芯片,并衍生出不同的架構(gòu)和技術(shù)路線。

作者?| 方文三

圖片來源?|??網(wǎng) 絡(luò)?

存算一體底層創(chuàng)新

目前市面上的芯片都是基于馮諾依曼架構(gòu),其特點(diǎn)是處理單元和存儲單元分離,各不相干,需要運(yùn)算的時候,計(jì)算單元再從存儲單元讀取數(shù)據(jù)進(jìn)行處理,處理完再還回去。

而存算一體則是把存儲單元和處理單元合二為一,去掉了中間傳輸路徑,所以可以大幅減少數(shù)據(jù)搬運(yùn),消過程中不必要的延遲和功耗,能耗可降至 1/10-1/100,能效可提升 10-100TOPS/W。

因?yàn)榇鎯σ惑w是以存儲器為介質(zhì),在里面加入計(jì)算單元,所以可以直接利用存儲單元進(jìn)行邏輯計(jì)算提升算力,在特定區(qū)域可提供 1000TOPS 以上的算力。

存算一體芯片目前發(fā)展難點(diǎn)

傳統(tǒng)架構(gòu)是計(jì)算和存儲相分離,現(xiàn)在兩者要合二為一,這就對存儲器本身和存算一體的設(shè)計(jì)提出更高的要求,是需要技術(shù)人員從頭探索的新領(lǐng)域。

基于存算一體是把計(jì)算和數(shù)據(jù)高度耦合,因此一旦其中一方出問題,另一方幾乎也會遭到極大影響,這都是需要處理的難題。

其中最重要一點(diǎn)便是生態(tài)與編程框架不完善,缺乏相應(yīng)的指令集與軟件工具。

一方面,各單位、公司開發(fā)的存算一體芯片均基于自行定義的編程接口,缺乏統(tǒng)一的編程接口,造成了存算一體軟件生態(tài)的分散,不同廠商開發(fā)的上層軟件無法互相通用,極大的影響了存算一體芯片的大規(guī)模使用。

另一方面,除了高效的硬件設(shè)計(jì),神經(jīng)網(wǎng)絡(luò)模型面向存算一體架構(gòu)時,計(jì)算任務(wù)如何映射、調(diào)度,也是發(fā)揮神經(jīng)網(wǎng)絡(luò)加速器性能和能效的關(guān)鍵。

存算一體國內(nèi)外玩家盤點(diǎn)

存算一體技術(shù)可有效突破芯片性能瓶頸,是解決算力提升放緩和算力需求快速增長之間尖銳矛盾的一種關(guān)鍵技術(shù)路徑,目前存算技術(shù)正處在從學(xué)術(shù)到工業(yè)產(chǎn)品的躍遷的關(guān)鍵時期。

三星

三星2021年2月發(fā)布HBM2-PIM,將4片常規(guī)DRAM die和4片具有計(jì)算功能的DRAM die通過TSV通孔垂直組合在一起。其中具有計(jì)算功能的DRAM die內(nèi)部集成了計(jì)算邏輯單元,即將A引擎引入每人存儲子單元,從而將處理操作轉(zhuǎn)移到HBM。每個存儲子單元都有一個嵌入式可編程計(jì)算單元(PCU) ,其運(yùn)行頻率為300 MHz,每個裸片上 (PIM-DRAM die) 有32個PCU。

Mythic

Mythic2021年5月獲得 7000 萬美元的 C 輪融資,累計(jì)融資金額1.652 億美元產(chǎn)品特點(diǎn): 基于區(qū)塊的A 計(jì)算架構(gòu)一一內(nèi)存計(jì)算、數(shù)據(jù)流架構(gòu)和模擬計(jì)算。

2021年6月發(fā)布由72個AMP切片構(gòu)成,每個切片內(nèi)部集成一系列閃存單元、ADC陣列、1個32位RISC納米處理器、1個16位SIMD矢量處理器、SRAM和1個片上網(wǎng)絡(luò) (NOC) 路由器,算力達(dá)25TOPS。

阿里達(dá)摩院

達(dá)摩院研發(fā)的存算一體芯片是全球首次采用混合鍵合(Hybrid Bonding)的 3D 堆疊技術(shù),將計(jì)算芯片和存儲芯片 face-to-face 地用特定金屬材質(zhì)和工藝進(jìn)行互聯(lián)。

得益于整體架構(gòu)的創(chuàng)新,達(dá)摩院的存算一體AI芯片同時實(shí)現(xiàn)了高性能和低系統(tǒng)功耗。

在實(shí)際推薦系統(tǒng)應(yīng)用中,相比傳統(tǒng)CPU計(jì)算系統(tǒng),該芯片的性能提升10倍以上,能效提升超過300倍。

后摩智能

后摩智能由吳強(qiáng)博士與多位國際頂尖學(xué)者和芯片工業(yè)界資深專家聯(lián)合組建,是全球存算一體智駕芯片的先行者。

后摩智能發(fā)布了首款存算一體芯片——鴻途 H30,最高物理算力 256TOPS,功耗僅為 35W,碾壓國內(nèi)一眾智駕芯片。

蘋芯科技

蘋芯科技已開發(fā)實(shí)現(xiàn)多款基于SRAM的存內(nèi)計(jì)算加速單元,致力于為人工智能行業(yè)提供了低成本、高效率、低能耗、高性能的芯片解決方案。

與此同時,面向多元化的場景,公司也正在開發(fā)利用新型存儲器為底層技術(shù),為客戶提供便捷的AI硬件加速方案。

此方向突破了傳統(tǒng)馮·諾伊曼架構(gòu)所帶來的局限,可廣泛應(yīng)用于眾多人工智能行業(yè)領(lǐng)域,包括但不限于智慧城市、智能家居、工業(yè)物聯(lián)網(wǎng),以及各類智慧終端、可穿戴設(shè)備、自主無人系統(tǒng)等領(lǐng)域。

知存科技

知存科技專注存內(nèi)計(jì)算芯片領(lǐng)域,創(chuàng)新使用Flash存儲器完成神經(jīng)網(wǎng)絡(luò)的儲存和運(yùn)算,解決AI的存儲墻問題,提高運(yùn)算效率,降低成本。

公司旗下WTM2101芯片適配低功耗AIoT應(yīng)用,可使用微瓦到毫瓦級功耗完成大規(guī)模深度學(xué)習(xí)運(yùn)算,可應(yīng)用于智能語音、智能健康等市場領(lǐng)域,目前已完成批量生產(chǎn)和市場應(yīng)用。WTM8系列芯片面向6-48Tops算力產(chǎn)品,應(yīng)用于4K-8K視頻的實(shí)時處理。

圖片

存算一體芯片市場前景

存內(nèi)計(jì)算的發(fā)展類似于存儲器的發(fā)展路徑,算力每年可以有5-10倍提升,能效每年會有1-2倍提升,成本每年會有30-50%下降,能把成本、算力、能效都可以做到最優(yōu)。

中早期的存算一體芯片算力較小,更多地應(yīng)用在對低功耗和高能效有強(qiáng)烈需求的端側(cè)場景,比如智能家居場景下的智能語音和輕量級視覺層面的應(yīng)用。

但存算一體芯片算力不斷提升,其使用范圍逐漸擴(kuò)展到邊緣端以及云端的大算力應(yīng)用領(lǐng)域。

智能駕駛技術(shù)的迭代升級,智能汽車對算力的需求越來越大;并且,智能汽車作為一個邊緣端設(shè)備,相比云端,對成本和功耗更為敏感。

存算一體技術(shù)通過將計(jì)算功能和存儲功能有機(jī)融合,可有效降低甚至消除數(shù)據(jù)頻繁搬運(yùn)帶來的功耗問題,并且能夠在不依賴于先進(jìn)工藝的情況下,做出大算力芯片,能夠同時兼顧能效和成本,可破解當(dāng)前傳統(tǒng)架構(gòu)大算力AI芯片的所面臨的一些困局。

也是智能駕駛場景下被業(yè)內(nèi)人士迫切期待的一種高能效AI芯片架構(gòu)的技術(shù)實(shí)現(xiàn)路徑。

存算一體芯片開源指令集和編譯器

在今年的集成電路EDA領(lǐng)域頂級會議上,中國科學(xué)院計(jì)算技術(shù)研究所智能計(jì)算機(jī)中心陳曉明和韓銀和研究員團(tuán)隊(duì)發(fā)表論文,公布了一項(xiàng)新的研究成果:PIMCOMP-NN存算一體通用編譯器和PIMSIM-NN——存算一體通用模擬器,二者基于一套之前該團(tuán)隊(duì)開源的存算一體指令集,構(gòu)成了完整的開源存算一體工具鏈,該項(xiàng)工作或?qū)榇嫠阋惑w芯片建立統(tǒng)一的生態(tài)做出一定的貢獻(xiàn)。

該工具鏈建立在一套面向神經(jīng)網(wǎng)絡(luò)的存算一體指令集基礎(chǔ)上。

指令集作為芯片軟硬件設(shè)計(jì)的接口,對于軟件生態(tài)有著舉足經(jīng)重的作用,為了使工具鏈對多種多樣的存算一體芯片的底層操作具有通用性,該課題組首先抽象了存算一體架構(gòu)支持的基本算子,定義了一套統(tǒng)一的面向神經(jīng)網(wǎng)絡(luò)的存算一體指令集。

圖片

隨著開源理念在存算一體領(lǐng)域的拓展,將有助于行業(yè)建立統(tǒng)一的編程和接口標(biāo)準(zhǔn),從而使來自不同廠商和研究機(jī)構(gòu)的產(chǎn)品實(shí)現(xiàn)互通。

這一標(biāo)準(zhǔn)化進(jìn)程將有助于解決目前存算一體芯片領(lǐng)域的碎片化問題,提高生態(tài)系統(tǒng)的協(xié)同效率。

進(jìn)一步推動存算一體芯片更容易與人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等產(chǎn)業(yè)相結(jié)合,形成更加豐富和復(fù)雜的應(yīng)用場景。

結(jié)尾:

隨著矛盾不斷升級,高通和Arm破鏡難圓已成定局。

對Arm公司來說,上有PC端巨擘X86的競爭壓力,下有RISC-V欲取而代之;

再加上昔日盟友高通這一肘腋之患,重重隱憂正在動搖ARM在芯片產(chǎn)業(yè)下游的統(tǒng)治基礎(chǔ)。

部分資料參考:熱點(diǎn)微評:《ARM霸權(quán)下:高通的叛逃與國產(chǎn)廠商的無奈》,三易生活:《驍龍8 Gen4或全面換用自研架構(gòu),ARM不樂意了》, 談芯說科技:《人工智能突飛猛進(jìn),ARM是否會掉隊(duì)?》

       原文標(biāo)題 : AI芯天下丨趨勢丨存算一體芯片邁進(jìn)開源

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號