生成的速度遠超人們的想象。在以前,人是數(shù)據(jù)產(chǎn)生的主要來源;而現(xiàn)在,圖像設備、傳感器、無人機、互聯(lián)汽車、設備及工業(yè)設備組件等,以多樣的途徑生成各類格式的數(shù)據(jù)。 然而,我們不應該將數(shù)據(jù)與混為一談,對兩個概念進行區(qū)分至關重要。
從價值角度衡量,目前僅有一小部分已收集數(shù)據(jù)可稱作是真正的資產(chǎn)。以圖像處理設備為例,一分鐘時長的相關活動于此至關重要,而非長時間的無關緊要的視頻。以此類推,如果將“數(shù)據(jù)”比作礦山,人人想要挖掘的金塊就是“信息”。將該類數(shù)據(jù)轉(zhuǎn)變成有價值信息的能力(所謂“挖掘”)稱為“分析”。
503 280 >
圖 1: 2009 年至 2020 年數(shù)據(jù)需求漲幅
圖 1 所展示的圖表由分析公司 statista 繪制,顯示了過去十年間數(shù)據(jù)存儲容量呈現(xiàn)驚人的增長。據(jù)預測,截止 2020 年,存儲需求將達到 42,000 eb以上。但是,絕大多數(shù)的數(shù)據(jù)存儲(大多數(shù)估算顯示占比至少為 80%)毫無結(jié)構(gòu)化可言,在使用這類數(shù)據(jù)進行分析時,無疑會帶來諸多困難。據(jù)估計,僅有 5% 的數(shù)據(jù)存儲可以真正用于分析。如果有一種方式可以使用元數(shù)據(jù)在執(zhí)行分析的環(huán)境中有效描述這類非結(jié)構(gòu)化數(shù)據(jù),則可以用來分析的數(shù)據(jù)量將顯著增加,所擁有的數(shù)據(jù)可產(chǎn)生的價值將得到大幅提升。
人工智能 (ai)是對現(xiàn)代社會的各個領域帶來重大影響的技術,這些領域包括、自然語言翻譯、金融科技、、目標識別/檢測乃至可快速確認危及生命癌細胞位置(或其他異常癥狀)的醫(yī)學領域。盡管應用領域多樣,但它們都有一個共同點:能通過采用一項可高效掃描大量非結(jié)構(gòu)化數(shù)據(jù)(視頻、文本、聲音、圖像等)并對其進行處理的技術,從而獲取真正的價值。
具體而言,marvell 不僅可以利用人工智能技術執(zhí)行分析過程,還可以通過此技術前置處理非結(jié)構(gòu)化的原始數(shù)據(jù),以便為其提供標記的元數(shù)據(jù),從而采用簡單又準確的方式表示這類數(shù)據(jù)。通過上層分析軟件可以分析此簡化版并從中收集有用的信息。在此之前,企業(yè)一直期盼通過人工智能技術從其存儲的數(shù)據(jù)中發(fā)掘更多的價值,但卻始終毫無頭緒。
基于上述情況,marvell 希望生成的元數(shù)據(jù)能夠提升分析軟件運行效率,并且將人工智能技術作為從大量非結(jié)構(gòu)化數(shù)據(jù)庫中創(chuàng)建元數(shù)據(jù)庫的工具。現(xiàn)在只需要將大量數(shù)據(jù)導入人工智能計算機中進行處理即可。但是,這是否真的是正確的方法?
如果考慮到現(xiàn)在生成和存儲數(shù)據(jù)的兩種主要方式,即“端” (‘the cloud’) 和“邊緣設備”(‘the edge’),可以很快到移動這些大量數(shù)據(jù)將產(chǎn)生昂貴費用。有了新技術,這些可以得到有效解決。在云端傳輸大量數(shù)據(jù),會對構(gòu)建的基礎設施帶來壓力,并會消耗大量電力及增加延遲水平,從而延長了整體處理時間。對于邊緣設備而言,不同之處在于可用的計算機和電力資源有限。由于所在位置的小型設備的網(wǎng)絡功能限制,因此無法將大量數(shù)據(jù)上傳至云端。在這兩種情況下,最大化操作效率的關鍵在于盡量減少移動數(shù)據(jù)量并使用元數(shù)據(jù)取而代之。
在來源處(例如存儲設備中的數(shù)據(jù)存儲位置)分配元數(shù)據(jù)會比四處轉(zhuǎn)移數(shù)據(jù)更為高效。()已經(jīng)包含作為計算機實體所需的基本元素。這些設備通常只能用于與硬盤相關的操作,但也可以轉(zhuǎn)換其用途,用于與功能相關的任務以及負責標記處理,或通過集成式硬件/軟件/固件的輔助,實現(xiàn)上述功能。其中的一種操作模式為使用空閑的硬盤窗口執(zhí)行后臺映射任務,另外一種方式則為寫入硬盤數(shù)據(jù)時同時對其進行處理。如果在存儲位置部署這種加速方式并應用于正確的用例中,其益處不僅在于節(jié)約電量及費用,還可以盡量減少數(shù)據(jù)移動并大幅降低延遲,以及降低整體網(wǎng)絡流量。此方式固有的可擴展性意味著企業(yè)和云服務提供商利用人工智能技術可擴展其業(yè)務范圍。
去年八月在美國圣克拉拉舉辦的全球峰會(flash memory summit)上,marvell 發(fā)表了極具開創(chuàng)性的 ai ssd概念驗證控制器,展示了如何在不需要訪問主機 cpu 處理資源的情況下,有效執(zhí)行數(shù)據(jù)標記,同時避免上述提及的費用和延遲問題。marvell 現(xiàn)場向參會者展示了 marvell 數(shù)據(jù)中心及使用開源深度學習(nvdla) 技術的客戶端 ssd 控制器 ic 如何繼承受過訓練的人工智能模型,將其編譯到集成式人工智能推斷ip,以及在硬盤中掃描存儲于本地的非結(jié)構(gòu)化數(shù)據(jù)的大型數(shù)據(jù)庫(例如視頻庫)。由此可生成標記并在搜索環(huán)境中創(chuàng)建可代表數(shù)據(jù)的元數(shù)據(jù)庫。
如果將檢測和識別物體或場景作為目標,人工智能推斷引擎可掃描存儲于硬盤的視頻文件,并創(chuàng)建可列出其出現(xiàn)時間點的元數(shù)據(jù)。基于這項新型人工智能增強存儲技術,可在固態(tài)硬盤中本地存儲元數(shù)據(jù)庫并可供分析軟件使用。
當執(zhí)法機構(gòu)在時長無休止的視頻文件中尋找可疑點時,他們可以加載受過訓練的模型。該模型能夠準確辨別上述可疑點并可在所有適用的視頻內(nèi)容中進行推斷,此類推斷可作為后臺任務運行于所有存儲視頻內(nèi)容的硬盤中。這種方式可以記錄及標記上述可疑點的蹤跡,更易于后續(xù)進行深入分析。
同樣,此架構(gòu)會使類似于后臺聊天機器人 (chatbot)的分析更為高效,此類分析涉及需要掃描聊天機器人通話的大型數(shù)據(jù)庫以便改善服務質(zhì)量。通過上述做法,可以判斷用戶在何時對其收到的回復感到滿意/生氣,或者通話時長是否合適等。創(chuàng)建可追蹤這些判斷標準的人工智能模型后,則可將這些標準編譯到人工智能存儲推斷引擎內(nèi),并離線掃描通話。對于類似于電視點播(vod)服務的個性化廣告插入、人物/物體搜索及利用數(shù)據(jù)近似度的各種密集型輸入/輸出 (io-intensive)用例,其也可帶來明顯的性能優(yōu)勢。
在無需昂貴的定制化 ic 的情況下,marvell 首創(chuàng)的人工智能 ssd 控制器技術展示了如何執(zhí)行新型數(shù)據(jù)存儲架構(gòu)以處理難以計算的“”相關應用程序的擴數(shù)據(jù)陣列。通過向市場中已有的固態(tài)硬盤硬件提供更為智能化的附加邏輯的訪問,可直接處理對下一代分析工作負載至關重要的元數(shù)據(jù)和標記,而無需連接專屬處理資源。
來源:比特網(wǎng)
以上是網(wǎng)絡信息轉(zhuǎn)載,信息真實性自行斟酌。