精選聯盟

算力重器DPU,火得猝不及防

作者:半導體産業縱橫
算力重器DPU,火得猝不及防

自計算機問世以來,一直采用的馮·諾依曼架構,該架構以計算和存儲為核心。其中CPU作為處理器單元,負責執行各種算術和邏輯計算。RAM和硬碟則負責存儲資料,與CPU進行互動。

再後來圖形、3D設計等多媒體軟體的高速發展,要處理的工作量越來越大,也越來越複雜。為了幫CPU分擔壓力,專門進行圖像和圖形處理工作的GPU應運而生。

如今,随着數字經濟的蓬勃發展,特别是生成式人工智能、大資料分析、自動駕駛、元宇宙等應用的迅速普及與實施,全球各行各業對大規模算力的渴求呈現出急劇增長的态勢。這時候,DPU(資料處理單元)憑借其卓越的性能和獨特優勢,逐漸嶄露頭角,成為推動算力提升的關鍵技術之一。

英偉達首席執行官黃仁勳曾在演講中表示:“ DPU 将成為未來計算的三大支柱之一,未來的資料中心标配是‘ CPU + DPU + GPU ’。CPU 用于通用計算, GPU 用于加速計算, DPU 則進行資料處理。”

那麼DPU的主要作用為何?相比CPU、GPU有哪些優勢?

01

DPU與CPU、GPU的主要差別

DPU的出現并非偶然,而是對日益增長的資料處理需求的有力回應。

從功能上看,CPU、GPU和DPU雖都屬于計算處理器,但各自長于不同功能。CPU負責計算機系統的整體運作,是計算機的"大腦”,适用于各種廣泛的應用,但在處理大規模資料和特定計算任務時性能相對有限。

GPU是用于圖形計算任務的專用處理器,例如3D圖像渲染或視訊處理等。對于大規模并行計算任務(如深度學習訓練)有一定優勢,但在一些特定任務上可能并不是最佳選擇。

而DPU專門設計用于資料處理任務,具有高度優化的硬體結構,适用于特定領域的計算需求。其靈活性和高性能使其成為未來計算的重要組成部分。

從架構上看,CPU由幾個功能強大的處理核心組成,這些核心針對串行處理進行了優化,優勢在于按順序逐個執行任務。GPU包含大量更簡單的核心,針對并行處理進行了優化,優勢在于同時處理大量任務。DPU則由處理核心、硬體加速器元件和高性能網絡接口組合而成,便于其處理以資料為中心的大規模任務。

再看應用領域,CPU幾乎存在于一切計算裝置當中,包括智能手機、計算機、伺服器等。GPU常被用于遊戲PC裝置。

DPU則主要用于資料中心。FPGA是DPU的核心技術之一,它具有在硬體級别上重新配置的能力,使其适用于多種計算任務。DPU利用FPGA的靈活性,通過重新配置硬體來實作高效的資料處理。異構計算是DPU的另一個關鍵技術,它通過同時利用不同類型的處理單元來執行任務,以提高整體性能。異構計算中的處理單元可以包括CPU、GPU、FPGA等,它們共同協作完成計算任務。在兩大技術的加持下,DPU能夠充分發揮其性能優勢,為資料中心提供強大的計算能力支援。

事實上,DPU已經不是第一個為彌補CPU能力不足而備受關注的産品,多年前GPU的大熱也是為了彌補CPU在圖形處理能力方面的短闆。換句話說,從CPU、GPU再到今天的DPU,技術變革背後展現的其實是時代的變化、使用者需求的變化。

02

DPU的應用正在走向多場景化

DPU 分擔的工作可以歸納為四個關鍵詞,分别是虛拟化、網絡、存儲以及安全。

DPU通過将控制平面下放,進而實作主機業務與控制平面的完全隔離,進而提升了虛拟環境的安全性。DPU的高效資料處理能力加速了虛拟機間的通信,提高了虛拟化性能。

此外,存儲行業的革新算法和實作,也可以在 DPU 架構中,獨立于伺服器作業系統進行部署。DPU 技術幫助存儲廠商實作真正的 “算存分離”。

在網絡與安全方面,随着資料洩露和隐私洩露的事件頻發,資料安全和隐私保護已經成為一個備受關注的問題。DPU可以利用可程式設計硬體解除安裝和加速内聯安全服務,提供強大的零信任保護,有效隔離主機業務和控制平面,確定資料安全性。

具體到各個場景的應用中,上文提到的資料中心隻是DPU主要的應用領域之一。

除了資料中心,DPU同樣能夠“駕馭”衆多應用。在HPC和AI場景,DPU可提供超高帶寬、無損網絡和高速存儲通路能力,可為HPC和AI提供業務所需的超高性能網絡。網絡、存儲與安全是DPU的主要應用。

在風起雲湧的邊緣計算領域,DPU的引入大有裨益。随着業務增多,邊緣算力和帶寬需求大幅增加,但邊緣設施的規模和能力受限,CPU主要滿足核心業務的算力需求,對本不擅長的網絡、存儲、安全等相關處理無暇顧及。引入DPU可大大降低此類DPU對CPU的消耗,同時使用專用硬體提升處理性能,進而大幅提升邊緣計算的處理能力。

在智算場景下DPU也擁有廣闊的市場空間,DPU通過高性能網絡及領域功能硬體解除安裝,為智算中心提供了大帶寬、高吞吐、低延遲時間的基礎設施能力,進而消除了資料IO瓶頸,釋放了算力。這使得DPU成為智算中心基礎設施的必選項,大幅提升了計算叢集的算效比。

多元化的應用場景為DPU帶來了豐富的商業機遇,未來DPU有望進一步拓展至自動駕駛、人工智能和元宇宙等領域。

03

DPU戰場百家争鳴

随着 DPU 技術方案更加成熟、資料中心在全球範圍内加速落地,英偉達、英特爾等廠商資料處理類晶片DPU/IPU大規模量産,全球 DPU 市場将在未來幾年迎來爆發式增長。

DPU 行業市場集中度較高。根據頭豹研究院資料,近年來國内 DPU 市場中,國際三大巨頭英偉達、博通、英特爾的份額分别達到 55%、36%、9%。Xilinx、Marvell、Pensando、Fungible、Amazon、Microsoft 等多家廠商在近 2-5 年内也均有 DPU 或相似架構産品生産,較國内相對較早。

算力重器DPU,火得猝不及防

英偉達的資料中心“野心”

在上表列出的諸多公司中,英偉達具有先發優勢。2019年3月,英偉達花費69億美元收購了以色列晶片公司 Mellanox 。英偉達将 Mellanox 的 ConnectX 系列高速網卡技術與自己的已有技術相結合,于2020年正式推出了兩款 DPU 産品BlueField-2 DPU 和 BlueField-2X DPU,正式拉開 DPU 發展的序幕。

如今,英偉達的BlueField 系列晶片已到達第三代,英偉達 BlueField-3 DPU 是一款支援 400Gb/s 速度的基礎設施計算平台,能夠線速處理軟體定義網絡、存儲和網絡安全任務。BlueField-3 将強大的計算能力、高速網絡和廣泛的可程式設計性集于一身,可為要求苛刻的工作負載提供軟體定義的硬體加速解決方案。從加速 AI 到混合雲和高性能計算,再到 5G 無線網絡,BlueField-3 重新定義了各種可能性。

英偉達的DPU主要作用是資料安全、網絡安全與存儲解除安裝等。在英偉達對DPU的布局中也足以看到,它在資料中心這一應用領域的野心,也有人稱,英偉達正“試圖利用DPU再一次複制此前GPU替代顯示加速卡成為通用顯示晶片的路徑”

英特爾推出IPU迎戰資料中心

英特爾在2021年6月新釋出的IPU産品(可以被視為Intel版本的DPU),将FPGA與Xeon D系列處理器內建,成為了DPU賽道有力的競争者。IPU是具有強化的加速器和以太網連接配接的進階網絡裝置,它使用緊密耦合、專用的可程式設計核心加速和管理基礎架構功能。2022 年的 Vision 全球使用者大會期間,英特爾又公布了 IPU 發展藍圖,呈現近三年及未來即将問世的産品與平台。

在發展藍圖中,英特爾揭露 3 款 IPU 産品,分别對應 ASIC、IPU 平台、SmartNIC,此外英特爾還揭露了兩條發展路線,一個是基于專屬 ASIC 晶片的 IPU,代号為 Mount Evans;另一個則是基于 FPGA 架構的兩種加速解決方案,代号為 Oak Springs Canyon 的 IPU 平台。

針對兩種 IPU 應用特性的差異,英特爾也在此做出最新的诠釋。若是基于 FPGA 架構而成的 IPU,能更快供應市場需求,支援持續演化的網絡标準,透過能重複進行的可程式設計化特性,以及安全的資料傳輸路徑,能夠彈性處理多種特定工作負載;如果是基于 ASIC 架構而成的 IPU,可提供最佳效能與功耗的搭配,能用于確定網絡與存儲等任務領域的安全性。

發展藍圖顯示,英特爾的第二代IPU已于2022年推出,包括Mount Evans(英特爾首款ASIC IPU)和Oak Springs Canyon(英特爾第二代FPGA IPU),目前正在向谷歌及其它服務提供商出貨。第三代IPU代号為Mount Morgan和Hot Springs Canyon的400 GB IPU預計2023/2024年開始向客戶及合作夥伴出貨。下一代800GB IPU預計2025/2026年開始向客戶及合作夥伴出貨。

此外,賽靈思已經推出DPU處理器——Alveo SmartNIC産品組合。DPU可以用作獨立的嵌入式處理器,但通常是被內建到SmartNIC裡。博通旗下有Stingray,Marvell則擁有OCTEON和ARMADA産品系列。

相比于CPU和GPU賽道,DPU毫無疑問是一個嶄新的競技場。随着網絡流量指數上漲,DPU市場前景廣闊。在國際巨頭加緊布局DPU業務的同時,國内晶片市場也頻傳好消息。

04

國内廠商各展所長

近年來,國家不斷推動數字經濟的快速發展。算力基礎設施是數字經濟發展的重要基礎,而算力和高性能網絡已成為算力基礎設施的核心能力,尤其是在人工智能和邊緣計算等需求的推動下,高性能網絡和DPU已愈發重要。

工業和資訊化部、中央網信辦、教育部、國家衛生健康委、中國人民銀行、國務院國資委等六部門近日聯合印發《算力基礎設施高品質發展行動計劃》。該計劃具體規定了到2025年,算力基礎設施發展的主要目标、重點任務和保障措施等,并重點提出針對智能計算、超級計算和邊緣計算等場景,開展DPU等技術更新與試點應用,實作算力中心網絡高性能傳輸。這是國家層面的檔案首次對未來3年的DPU發展指明了方向。

随着 DPU 産業的快速發展,國内也湧現出了一大批 DPU 公司。

算力重器DPU,火得猝不及防

中科馭數

中科馭數基于自研靈活異構 KPU 晶片架構以及 DPU 軟體開發平台 HADOS,公司自主研發了業界首顆融合高性能網絡與資料庫一體化加速功能的 DPU晶片和标準加速卡系列産品,可廣泛應用于超低延遲網絡、大資料處理、5G 邊緣計算、高速存儲等場景,助力算力成為數字時代的新生産力。

在 DPU 産品的研發疊代方面,中科馭數于 2019 年流片了第一代 DPU 晶片K1,第二代 DPU 晶片 K2 也于 2022 年初成功投片,目前已開始第三代 DPU 晶片 K2 Pro 的研發工作。針對資料中心關鍵性能瓶頸與業務需求,中科馭數也基于自研DPU晶片推出了RDMA加速卡、雲原生網絡加速卡等系列産品,支援超大規模組網算力互連,以支撐算力底座建設所必須的100G+超高帶寬和低延遲時間,使更多的CPU/GPU算力真正服務于業務,為智算中心建設提供全套的性能更高和算力更好的解決方案。

國産化建設浪潮之下,中科馭數也正全面擁抱國産化生态,積極與國内産業鍊上下遊廠商開展産品相容性認證。目前,中科馭數已與國内6大CPU晶片、12家主流作業系統、9家主流資料庫廠商、8家頭部雲/雲原生廠商、17家TOP級伺服器廠商完成相容性适配。

芯啟源

芯啟源具有完全自主知識産權的 DPU 晶片。芯啟源 DPU 較傳統智能網卡提供了更大的處理能力、更強的靈活性、可程式設計資料包處理、可擴充 Chiplet結構等特性。采用 NP-SoC 模式進行晶片設計,通用 ARM 架構結合高度優化面向資料包的 NP 晶片(RISC-V 核心)、多線程的處理模式,使其可以達到 ASIC 固化晶片的資料處理能力,同時考慮到了全量可程式設計、靈活可擴充的屬性,用以支援400Gbps 及以上的性能目标、低功率且具有成本效益等。

芯啟源從2019年開始研發第一代FPGA智能網卡,2020年開始推出第二代基于NP-SoC架構的産品,逐漸推向市場。如今,芯啟源推出了基于SoC-NP架構的DPU晶片智能網卡,具有可程式設計性、可擴充性和高性能三個重要特點,已成熟量産出貨,商業落地,能夠适應于廣泛的應用場景,成為了真正意義上國内最早一批進入DPU領域的晶片公司。

據悉,芯啟源正在研發的新一代NFP-7000 DPU晶片,将對标Nvdia的BlueField-3,并用“通用型晶片+定制化軟體”的模式推動行業的網卡國産化。從設計目标來看,該款晶片的性能與功能,完全不亞于英偉達的BlueField-3,同時,該晶片未來會根據不同場景需求來設定其能力範圍,這樣将大大降低晶片的成本,更符合國内晶片的多場景需求。

雲豹智能

目前雲豹智能領跑國内資料中心場景的國産DPU晶片方案。雲豹智能 DPU SoC 是國内第一顆通用可程式設計 DPU 晶片,具備豐富的可程式設計性和完備的 DPU 功能,支援不同雲計算場景和資源統一管理,優化資料中心計算資源使用率。

雲豹DPU通過對各種高速網絡、彈性存儲、安全服務及可靠運維和管控進行解除安裝、加速及隔離,為雲端、資料中心、人工智能及邊緣計算等提供新一代計算平台。

目前雲豹智能已與頭部雲計算大廠、電信營運商和央企等開展深度合作,共同推進DPU産業落地。

大禹智芯

大禹智芯也擁有DPU設計與研發及DPU大型商業化部署的成功經驗。大禹智芯Paratus系列DPU産品采用三條産品線并行的方式逐漸面向廣泛商用市場推出易用并好用的DPU産品:

Paratus 1.0作為大禹智芯DPU的第一條産品線産品,采用ARM SoC作為主處理單元,提供多個10Gbps/25Gbps的業務網絡接口,同時為了友善使用者管理,單獨設定了RJ45管理口。

Paratus 2.0作為大禹智芯DPU的第二條産品線産品,采用ARM SoC + FPGA的硬體架構,在Paratus 1.0産品基礎上,利用FPGA對可固化邏輯的資料包實作高性能轉發,提供多個10G/25G、100G的業務網絡接口。

Paratus 3.0作為第三條産品線産品,将采用大禹智芯自研DPU晶片。該晶片将結合公司對DPU相關技術及未來應用場景的了解,和前兩條産品線(Paratus 1.0和Paratus 2.0)在實際場景部署中獲得的寶貴客戶回報意見和經驗積累,形成高度內建化的DPU産品。

阿裡雲 CIPU

2022 年阿裡雲峰會上,阿裡雲正式釋出了雲基礎設施處理器 CIPU,CIPU 的前身是MoC 卡 (Micro Server on a Card),MoC 卡是神龍架構的靈魂所在。MoC 卡擁有獨立的I/O、存儲和處理單元,承擔了網絡、存儲和裝置虛拟化的工作。

第一代和第二代 MoC 卡解決了狹義上的計算虛拟化零開銷的問題,網絡和存儲部分的虛拟化仍由軟體實作。第三代MoC 卡實作了部分網絡轉發功能硬化,網絡性能大幅提升。第四代 MoC 卡實作了網絡、存儲全硬體解除安裝,還支援了 RDMA 能力。

除了上文列舉的幾家公司外,星雲智聯、銳文科技等多家優秀的國産廠商,均憑借技術創新與産品定義方面的優勢,沿着差異化路線搶灘市場。不過,值得注意的是,目前國内DPU仍處于發展早期階段。對于國内DPU企業來說,眼下最重要的事還是要先把實際産品做出來,并在應用場景中進行檢驗,畢竟DPU作為一個新興的技術領域,其産品的開發難度較高,且市場對其性能、穩定性和安全性等方面都有極高的要求。

05

DPU進入爆發期

根據賽迪顧問資料顯示,從2023年開始全球DPU市場規模将突破百億美元,并進入年增長率超50%的快車道。而中國DPU市場規模在2023年也将超300億元人民币,呈現跳躍式增長,2025年國内市場規模将達到565.9億元,五年複合增速達170.60%。

目前,包括亞馬遜、阿裡雲、華為在内的雲計算龍頭都在發展符合自身要求的DPU産品線。

除資料中心以外,智能駕駛、資料通信、網絡安全等也是DPU的下遊應用領域。

此外,DPU與DOCA對于大模型和生成式AI而言,意義重大。根據Gartner,預計在 2026 年,超過80%的企業将使用生成式AI應用程式程式設計接口(API)或模型,或者在相關生産環境中部署支援生成式AI的應用程式。據統計,這一比例在2023年還不到5%,這意味着在短短三年内,采用或建立生成式AI模型的企業數量預計将會增長16倍。

也就是說,未來3年是生成式AI爆發的視窗期,也是普及BlueField DPU和DOCA的機遇期。