在10月10日的英偉達gtc大會上,該公司發布了rapids開源gpu加速平臺,對于這家以“硬件”為主要標簽的公司來說,創始人黃仁勛在gtc大會上花了很大的篇幅來介紹這款軟件產品,以及這款產品之所以被推出的背景。
在不久后,在英偉達北京辦公室召開了一次媒體講解會,亞太區解決方案架構高級總監趙立威,就這款gpu加速平臺上市的市場背景和重點技術細節進行了詳細的溝通。
容易被忽視的200億美金市場
“在數據科學領域中,雖然近兩年談得比較多的是人工智能和深度學習,但機器學習市場相對于深度學習市場存在的時間更長,在長達十幾到二十幾年的發展過程中,如今將會爆發很大的市場價值,市場容量將會在200億美金左右。”趙立威說,“如果把數據分析(大數據分析)市場作為hpc的一個細分領域,這個市場會更大,差不多應該會在360億美金左右。”
另一方面,“數據驅動”成了越來越多企業用來增強自己核心競爭力的手段。例如亞馬遜,有三分之一左右的采購行為,是通過系統來推薦的。類似的案例還發生在零售、保險、金融等各個領域。“現在一旦離開數據,離開所謂的大數據決策支持系統,很多商業行為已經變得不可想象。”
那么,為什么英偉達選擇在這個時間點推出這樣一款產品?筆者在媒體介紹會中,梳理了關于rapids的幾個關鍵詞:1.它是開源的;2.它是一個軟件的平臺;3.它是面向數據科學以及機器學習市場的。
數據科學家:不是在喝咖啡,就是在喝咖啡的路上,然而這種生活將被rapids所終結
數據科學家是一個全世界每個人都想做的工作。因為他們以前有很多時間喝咖啡。他們不是在喝咖啡,就是在去喝咖啡的路上。因為在數據準備的階段,要把數據集宕下來,可能動不動就是g或t級別的很大一個數據包。下載之后需要進行處理,etl數據抽取、數據轉換和數據加載的過程,這時候就可以喝咖啡去了,因為基于整個數據的加載和數據的計算過程是非常耗時的。但對于數據科學家來說,有很多時間可以享受悠閑的咖啡生活。但對于it manager或者企業管理者來說,就不是一件讓人開心的事情了。當你希望從一個數據里面找到一個決策過程支持結果的時候,如果需要花幾十個小時、幾天甚至于幾周時間的時候,這對于企業的決策者來說是不可想象的。“這些判斷應該是秒級甚至毫秒級的,每一次判斷,當滑動過程的時候,就應該已經判斷好了。”趙立威說。
rapids軟件平臺幫助數據科學家顯著提高了工作績效,“數據分析和機器學習是高性能計算市場中最大的細分市場,不過目前尚未實現加速,“nvidia創始人兼首席執行官黃仁勛在gpu技術大會主旨演講中發布rapids時表示,”全球最大的行業均在海量上運行機器學習算法,目的在于了解所在市場和環境中的復雜模式,同時迅速、精準地做出將直接影響其基礎的預測。 “數據科學家使用加速服務以后,數據加載處理等部分的過程就會變得很短了。數據科學家可以參與到要發揮他的主觀能動性的分析過程中,而因為gpu加速還可以提高分析精度。
據網了解,rapids已為gpu加速分析和機器學習提供了一整套開源庫,數據可視化即將是下一個目標。rapids第一次為數據科學家提供了他們需要用來在gpu上運行整個數據科學管線的工具。最初的rapids基準分析利用了xgboost機器學習算法在nvidia dgx-2? 系統上進行訓練,結果表明,與僅有cpu的系統相比,其速度能加快50倍。這可幫助數據科學家將典型訓練時間從數天減少到數小時,或者從數小時減少到數分鐘,具體取決于其數據集的規模。
“開源”的兩大含義
據了解,rapids構建于apache arrow、pandas和scikit-learn等流行的開源項目之上,為最流行的數據科學工具鏈帶來了gpu提速。為了將更多的機器學習庫和功能引入rapids,nvidia廣泛地與開源生態系統貢獻者展開合作 ,其中包括anaconda、blazingdb、databricks、quansight、scikit-learn、ursa labs 負責人兼apache arrow締造者wes mckinney以及迅速增長的python數據科學庫pandas等等。 而據趙立威介紹,開源有兩大含義,除了rapids跟很多開源社區所保持的緊密合作關系,其次,rapids平臺本身是開源的,“我們希望通過這種方式,可以有更多開源的朋友,來貢獻他們的代碼、分享智慧,不斷的完善整個平臺上面新的、豐富它的基礎特性,未來服務更多的場景。”
另據了解,除了英偉達的dgx-2、dgx-1、dgx station,rapids還支撐多款基于hgx-1、hgx-2這兩種架構的服務器產品。
來源:網絡
以上是網絡信息轉載,信息真實性自行斟酌。