在今年五月,英偉達發(fā)布了基于全新ampere架構打造的gpu a100。
據該公司ceo黃仁勛介紹,a100 采用臺積電當時最先進的7 納米工藝打造,擁有 540 億個晶體管,面積高達 826mm2,gpu 的最大功率也達到了 400w。又因為同時搭載了三星 hbm2 顯存、第三代 tensor core和帶寬高達gb/s 的新版 nvlink,英偉達的a100在多個應用領域也展現(xiàn)出強悍的性能。
從英偉達提供的數(shù)據可以看到,如果用 pytorch 框架跑 ai 模型,相比上一代 v100 芯片,a100 在 bert 模型的訓練上性能提升 6 倍,bert 推斷時性能提升 7 倍。而根據mlperf組織在十月底發(fā)布的最新推理基準測試(benchmark)mlperf inference v0.7結果,英偉達a100 tensor core gpu在云端推理的基準測試性能是最先進英特爾cpu的237倍。
但英偉達不止步于此。在昨日,他們發(fā)布了面向ai超級計算的全球最強gpu——a100 80gb;與此同時,他們還帶來了一體式ai數(shù)據中心nvidia dgx station a100以及nvidia mellanox 400g infiniband產品。
全球最強的ai超算gpu
據英偉達方面介紹,公司全新的 a100 80gb gpu的最大特點在于采用了hbm2e內存技術,能將a100 40gb gpu的高帶寬內存增加一倍至80gb,這樣的設計也讓英偉達成為業(yè)內首個實現(xiàn)了2tb/s以上的內存帶寬的企業(yè)。
“若想獲得hpc和ai的最新研究成果,則需要構建最大的模型,而這需要比以往更大的內存容量和更高的帶寬。a100 80gb gpu所提供的內存是六個月前推出的前代產品的兩倍,突破了每秒2tb的限制,使研究人員可以應對全球科學及大數(shù)據方面最嚴峻的挑戰(zhàn)。”nvidia應用深度學習研究副總裁bryan catanzaro表示。
此外,第三代tensor core核心、mig技術、結構化稀疏以及第三代nvlink和nvswitch,也是全新gpu能夠獲得市場認可的保證。
從英偉達提供的資料我們可以看到,該公司的第三代tensor core核心通過全新tf32,能將上一代volta架構的ai吞吐量提高多達20倍;通過fp64,新核心更是能將hpc性能提高多達2.5倍;而通過 int8,新核心也可以將ai推理性能提高多達20倍,并且支持bf16數(shù)據格式。
mig技術則能將單個獨立實例的內存增加一倍,并可最多提供七個mig,讓每個實例具備10gb內存。英偉達方面表示,該技術是一種安全的硬件隔離方法,在處理各類較小的工作負載時,可實現(xiàn)gpu最佳利用率。例如在如rnn-t等自動語言識別模型的ai推理上,單個a100 80gb mig實例可處理更大規(guī)模的批量數(shù)據,將生產中的推理吞吐量提高1.25倍。
至于結構化稀疏,則可以將推理稀疏模型的速度提高2倍;包括第三代nvlink和nvswitch在內的新一代互連技術,則可使gpu之間的帶寬增加至原來的兩倍,將數(shù)據密集型工作負載的gpu數(shù)據傳輸速度提高至每秒 gigabytes。
除了性能提升以外,基于a100 40gb的多樣化功能設計的a100 80gb gpu也成為需要大量數(shù)據存儲空間的各類應用的理想選擇。
以dlrm等推薦系統(tǒng)模型為例,他們?yōu)閍i訓練提供了涵蓋數(shù)十億用戶和產品信息的海量表單。但a100 80gb可實現(xiàn)高達3倍加速,使企業(yè)可以重新快速訓練這些模型,從而提供更加精確的推薦;在tb級零售大數(shù)據分析基準上,a100 80gb將其性能提高了2倍,使其成為可對最大規(guī)模數(shù)據集進行快速分析的理想平臺;對于科學應用,a100 80gb可為天氣預報和量子化學等領域提供巨大的加速。
“作為nvidia hgx ai超級計算平臺的關鍵組件,a100 80gb還可訓練如gpt-2這樣的、具有更多參數(shù)的最大模型。”英偉達方面強調。
下一代400g infiniband
在發(fā)布a100 80gb的同時,英偉達還帶了下一代的400g infiniband產品。在講述英偉達的新品之前,我們有必要先了解一下什么是infiniband。
所謂infiniband,是一種網絡通信協(xié)議,它提供了一種基于交換的架構,由處理器節(jié)點之間、處理器節(jié)點和輸入/輸出節(jié)點(如磁盤或存儲)之間的點對點雙向串行鏈路構成。每個鏈路都有一個連接到鏈路兩端的設備,這樣在每個鏈路兩端控制傳輸(發(fā)送和接收)的特性就被很好地定義和控制。而早前被英偉達收購的mellanox則是這個領域的專家。
資料顯示,mellanox為服務器,存儲和超融合基礎設施提供包括以太網交換機,芯片和infiniband智能互連解決方案在內的大量的數(shù)據中心產品,其中,更以infiniband互連,是這些產品中重中之重。
據英偉達介紹,公司推出的第七代mellanox infiniband ndr 400gb/s上帶來了更低的延遲,與上一代產品相比,新的產品更是實現(xiàn)了數(shù)據吞吐量的翻倍。又因為英偉達為這個新品帶來了網絡計算引擎,這就讓其能夠獲得額外的加速。
英偉達進一步指出,作為一個面向ai超級計算的業(yè)界最強大的網絡解決方案,mellanox ndr 400g infiniband交換機,可提供3倍的端口密度和32倍的ai加速能力。此外,它還將框式交換機系統(tǒng)的聚合雙向吞吐量提高了5倍,達到1.64 petabits/s,從而使用戶能夠以更少的交換機,運行更大的工作負載。
“基于mellanox infiniband架構的邊緣交換機的雙向總吞吐量可達51.2tb/s,實現(xiàn)了具有里程碑意義的每秒超過665億數(shù)據包的處理能力。”英偉達方面強調。而通過提供全球唯一的完全硬件卸載和網絡計算平臺,nvidia mellanox 400g infiniband實現(xiàn)了大幅的性能飛躍,可加快相關研究工作的進展。
“我們的ai客戶的最重要的工作就是處理日益復雜的應用程序,這需要更快速、更智能、更具擴展性的網絡。nvidia mellanox 400g infiniband的海量吞吐量和智能加速引擎使hpc、ai和超大規(guī)模云基礎設施能夠以更低的成本和復雜性,實現(xiàn)無與倫比的性能。” nvidia網絡高級副總裁gilad shainer表示。
從他們提供的數(shù)據我們可以看到,包括atos、戴爾科技、富士通、浪潮、聯(lián)想和supermicro等公司在內的全球領先的基礎設施制造商,計劃將mellanox 400g infiniband解決方案集成到他們的企業(yè)級產品中去。此外,包括ddn、ibm storage以及其它存儲廠商在內的領先的存儲基礎設施合作伙伴也將支持ndr。
全球唯一的千兆級工作組服務器
為了應對不同開發(fā)者對ai系統(tǒng)的需求,在推出芯片和連接解決方案的同時,英偉達在2017年還推出一體式的ai數(shù)據中心nvidia dgx station。作為世界上首款面向 ai 開發(fā)前沿的個人超級計算機,開發(fā)者只需要對其執(zhí)行簡單的設置,就可以用caffe、tensorflow等去做深度學習訓練、高精度圖像渲染和科學計算等傳統(tǒng)hpc應用,避免了裝驅動和配置環(huán)境等麻煩,這很適合高校、研究所、以及it力量相對薄弱的企業(yè)。
昨日,英偉達今日發(fā)布了全球唯一的千兆級工作組服務器nvidia dgx stationa100 。作為開創(chuàng)性的第二代人工智能系統(tǒng),dgx station a100加速滿足位于全球各地的公司辦公室、研究機構、實驗室或家庭辦公室中辦公的團隊對于機器學習和數(shù)據科學工作負載的強烈需求。而為了支持諸如bert large推理等復雜的對話式ai模型,dgx station a100比上一代dgx station提速4倍以上。對于bert large ai訓練,其性能更是提高近3倍。
從性能來看,英偉達方面表示,dgx station a100的ai性能可達2.5 petaflops,是唯一一臺配備四個通過nvidia nvlink完全互連的全新nvidia a100 tensor core gpu的工作組服務器,可提供高達320gb的gpu內存,能夠助力企業(yè)級數(shù)據科學和ai領域以最速度取得突破。
作為唯一支持nvidia多實例gpu(mig)技術的工作組服務器,單一的dgx station a100最多可提供28個獨立gpu實例以運行并行任務,并可在不影響系統(tǒng)性能的前提下支持多用戶。
為了支持更大規(guī)模的數(shù)據中心工作負載,dgx a100系統(tǒng)還將配備全新nvidia a100 80gb gpu使每個dgx a100系統(tǒng)的gpu內存容量增加一倍(最高可達640gb),從而確保ai團隊能夠使用更大規(guī)模的數(shù)據集和模型來提高準確性。
“全新dgx a100 640gb系統(tǒng)也將集成到企業(yè)版nvidia dgx superpodtm 解決方案,使機構能基于以20 個dgx a100系統(tǒng)為單位的一站式ai超級計算機,實現(xiàn)大規(guī)模ai模型的構建、訓練和部署。”英偉達方面強調。
該公司副總裁兼 dgx系統(tǒng)總經理charlie boyle則表示:“dgx station a100將ai從數(shù)據中心引入可以在任何地方接入的服務器級系統(tǒng)。數(shù)據科學和ai研究團隊可以使用與nvidia dgx a100系統(tǒng)相同的軟件堆棧加速他們的工作,使其能夠輕松地從開發(fā)走向部署。”
從英偉達提供的資料我們可以看到,配備a100 80gb gpu的nvidia dgx superpod系統(tǒng)將率先安裝于英國的cambridge-1超級計算機,以加速推進醫(yī)療保健領域研究,以及佛羅里達大學的全新hipergator ai超級計算機,該超級計算機將賦力這一“陽光之州”開展ai賦能的科學發(fā)現(xiàn)。
在今年發(fā)布的第二季財報上,英偉達數(shù)據中心業(yè)務首超游戲,成為公司營收最大的業(yè)務板塊。從營收增長上看,與去年同期相比,英偉達數(shù)據中心業(yè)務業(yè)務大幅增長167%,由此可以看到英偉達在這個市場影響力的提升以及公司對這個市場的信心。
來源:半導體行業(yè)觀察
以上是網絡信息轉載,信息真實性自行斟酌。