2018年,人工智能熱度依然不減,可謂年度it關(guān)鍵詞之一,隨著將人工智能上升為國家戰(zhàn)略,我國的人工智能行業(yè)便如火如荼地展開。互聯(lián)網(wǎng)行業(yè)和傳統(tǒng)的制造業(yè)將經(jīng)歷一場大的變局,為了在這場變局中生存,各大互聯(lián)網(wǎng)公司紛紛在人工智能方面布局,搶灘ai時(shí)代的制高點(diǎn)。
bat三巨頭有百度的自動(dòng)駕駛,阿里的城市大腦,還有騰訊基于自己軟件應(yīng)用場景做的各種智能化嘗試;新興的人工智能巨頭如科大訊飛的智能語音,今日頭條的智能推薦等等,都在改變著人們的生活方式。而實(shí)現(xiàn)這一切的背后,離不開強(qiáng)大的ai服務(wù)器。
浪潮信息agx-2(nf5288m5)是目前全球唯一可在2u空間支持8顆nvlink2.0高速互聯(lián)gpu加速計(jì)算的ai服務(wù)器,能滿足ai云、深度學(xué)習(xí)模型訓(xùn)練和線上推理等各類ai應(yīng)用場景對(duì)計(jì)算架構(gòu)性能、功耗的不同需求。每u搭載4顆gpu的密度、960tflops的性能、ns級(jí)的延遲等強(qiáng)大性能的背后,必然對(duì)功耗、密度、穩(wěn)定性帶來極大的挑戰(zhàn),這背后又有哪些黑科技呢?
ai計(jì)算加速器agx-2
為了提升計(jì)算效率、滿足多樣化ai場景需求,agx-2變異構(gòu)為同構(gòu),消除了異構(gòu)通信帶來降低計(jì)算效率的煩惱。為了更大幅度地提升服務(wù)器計(jì)算效率,滿足ai應(yīng)用對(duì)計(jì)算力的需求,agx-2在架構(gòu)設(shè)計(jì)中將計(jì)算密度做到了極致。而為了滿足客戶對(duì)彈性架構(gòu)平臺(tái)的需求,agx-2創(chuàng)新地采用pci-e連接資源,實(shí)現(xiàn)更加靈活的拓?fù)洹?/p>
浪潮信息ai服務(wù)器agx-2
極致效率、異構(gòu)變同構(gòu):agx-2拋棄傳統(tǒng)異構(gòu)計(jì)算架構(gòu)模式,在2u空間內(nèi)支持部署8塊nvlink或pci-e 接口的nvidia? tesla? p100 gpu,可以在不依賴cpu的前提下,實(shí)現(xiàn)機(jī)內(nèi)點(diǎn)到點(diǎn)通訊,減少了異構(gòu)通訊的次數(shù);并在業(yè)界率先支持nvlink 2.0和最新發(fā)布的nvidia? tesla?系列g(shù)pu,可以實(shí)現(xiàn)gpu間高達(dá)300gb/s的互連帶寬,并提供極低的延遲,讓多塊gpu并行的效率大幅提升超過60%。將gpu同構(gòu),把a(bǔ)gx-2的并行計(jì)算效率盡可能推到極限。
極致密度、更高計(jì)算力:與浪潮信息支持2u4卡的nf5288m4對(duì)比測(cè)試,agx-2采用p100的linpack浮點(diǎn)運(yùn)算性能達(dá)29.33tflops,是同樣采用p100 nf5288m4的2.47倍;在ai深度學(xué)習(xí)模型訓(xùn)練上,當(dāng)采用tensorflow框架和 googlenet模型,agx-2處理速度為每秒1165幅圖片,是搭配4片tesla? m40的nf5288m4性能的2.49倍。在實(shí)現(xiàn)了性能和效率雙提升的同時(shí),機(jī)箱仍然保持了和上一代一樣的2u高度,實(shí)現(xiàn)了最高的gpu卡部署密度。在超大規(guī)模ai訓(xùn)練集群或hpc集群引用時(shí),可以幫助客戶節(jié)省數(shù)據(jù)中心的基礎(chǔ)設(shè)施資源,更有利于數(shù)據(jù)中心的空間分配。
極致靈活、彈性計(jì)算拓?fù)洌篴gx-2采用pci-e線纜的方式連接cpu和gpu資源,可以靈活調(diào)整cpu的連接帶寬和連接數(shù)量,在應(yīng)對(duì)不同的ai應(yīng)用時(shí),更好的做到pci-e資源按需分配。靈活的計(jì)算架構(gòu)可以讓一顆或兩顆cpu管理8顆gpu,也可以通過gpu擴(kuò)展box的方式,實(shí)現(xiàn)最大16gpu的縱向擴(kuò)展。而服務(wù)器提供的pci-e i/o,8個(gè)u.2插槽, 或多達(dá)4塊100gbps infiniband網(wǎng)卡,都可以根據(jù)計(jì)算靈活調(diào)整拓?fù)洹gx-2彈性的異構(gòu)平臺(tái),足以支撐多樣化的ai場景。
極致設(shè)計(jì)背后帶來的極限挑戰(zhàn)
agx-2通過優(yōu)秀的設(shè)計(jì),實(shí)現(xiàn)了性能、靈活性和密度的多維度增強(qiáng),然而這背后帶來的卻是對(duì)互連、供電和散熱設(shè)計(jì)的三大極限挑戰(zhàn)。如何在一個(gè)系統(tǒng)中實(shí)現(xiàn)gpu卡的靈活配置,滿足高達(dá)3000w的供電需求,并在有限的空間內(nèi)解決散熱,成為了開發(fā)這款產(chǎn)品的三大難題 。在此就給大家一一揭秘agx-2是如何做到的。
300gb/s聚合帶寬的cube mesh拓?fù)?/p>
互連挑戰(zhàn):有別于業(yè)界異構(gòu)服務(wù)器cpu和gpu緊耦合的互連方式,agx-2采用解耦式設(shè)計(jì),不但提供靈活性,同時(shí)還支持高達(dá)300gb/s的nvidia? nvlink?gpu互連帶寬。浪潮信息
結(jié)合刀片服務(wù)器的設(shè)計(jì)思路,把這些組件緊湊的布局到2u空間中,并基于8路服務(wù)器的設(shè)計(jì)經(jīng)驗(yàn),確保nvlink?的走線長度、信號(hào)都處在最佳狀態(tài),以保證gpu的性能發(fā)揮。
供電挑戰(zhàn):8塊功耗高達(dá)300w的gpu,以及服務(wù)器內(nèi)其他的計(jì)算、存儲(chǔ)和i/o資源,整機(jī)的功耗需求達(dá)到3000w,供電如何走線成為最大的挑戰(zhàn)。agx-2借鑒了浪潮信息在整機(jī)柜服務(wù)器的供電設(shè)計(jì)方式,對(duì)單服務(wù)器內(nèi)部采用無線纜供電設(shè)計(jì),減少了供電線纜對(duì)空間的占用以及對(duì)散熱氣流的影響。在保證供電能力的同時(shí),對(duì)空間、散熱的影響降到最低。
散熱挑戰(zhàn):3000w的供電,意味著3000w的峰值發(fā)熱量,6倍于傳統(tǒng)的2u服務(wù)器,散熱成為一個(gè)繞不過的難題。agx-2在設(shè)計(jì)之初,從布局、風(fēng)道和氣流多個(gè)方面統(tǒng)籌進(jìn)行考慮。低發(fā)熱量組件前置,高發(fā)熱量組件后置,避免局部熱點(diǎn),讓空氣在服務(wù)器的內(nèi)部均衡的升溫,再通過高速風(fēng)扇將熱量快速帶出服務(wù)器,最終agx-2可以和傳統(tǒng)服務(wù)器一樣工作在35℃的環(huán)溫下。并且為了支持低pue數(shù)據(jù)中心,還可以配置氣液混合散熱,甚至可以支持45℃的高環(huán)溫運(yùn)行。
100%的計(jì)算密度提升、960tflops的計(jì)算力、200倍的單機(jī)ai訓(xùn)練性能,agx-2無愧是一款最高密度、最高性能的ai服務(wù)器,無論是在面向人工智能訓(xùn)練還是hpc應(yīng)用時(shí),都將為用戶提供極致性能體驗(yàn)。和傳統(tǒng)概念的高性能集群相比,gpu同構(gòu)、靈活拓?fù)浜统呙芏鹊恼w架構(gòu),讓應(yīng)用和硬件的結(jié)合,變得更為高效和緊密。
(免責(zé)聲明:此文內(nèi)容為本網(wǎng)站刊發(fā)或轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。)
來源:財(cái)經(jīng)網(wǎng)
以上是網(wǎng)絡(luò)信息轉(zhuǎn)載,信息真實(shí)性自行斟酌。