2018年11月17日,首屆極光開發者大會在深圳召開,本次大會由國內領先的移動大數據服務平臺——極光大數據舉辦,近千位互聯網公司技術領袖、合作伙伴、開發者齊聚一堂,圍繞大數據、人工智能、移動開發等廣受關注的熱點話題,共同探討移動開發的下半場,構建健康的開發者生態。
video++ ai實驗室負責人張奕博士作為人工智能分論壇的重要嘉賓出席本次大會,并發表《人工智能在消費級視頻分析中的應用》的主題演講。
人工智能在消費級視頻分析中的應用
主講人:video++ai實驗室負責人 張奕博士
大家好,我是video++智能網絡科技ai實驗室的張奕。今天想給大家分享的是人工智能在消費級視頻分析領域中的應用。
首先給大家解釋一下什么是消費級視頻。消費級視頻主要是跟工業級視頻區分來講的。工業級視頻主要是專業人員通過專業設備采集的視頻,大家最經常看到的工業級視頻就是監控視頻。相對而言,消費級視頻是我們平時用手機或其他便攜式圖像采集設備生成和制造的視頻。由于制作簡單、傳播容易,消費級視頻的體量是非常大的。如果可以利用人工智能技術在消費級視頻中發掘出一些內容,它的商業應用價值可以說是非常大的。
video++作為國內最大的深耕于消費級視頻領域ai技術的公司,主要專注于消費級視頻中ai的技術研發和產業落地。我們主要從事的工作是在消費級視頻中識別出相關內容,通過數據結構化,在各個不同維度對消費級視頻的內容進行識別,從而在時間、空間位置上對出現的目標進行定位。
1. 消費級視頻分析領域的技術構架
首先介紹一下視頻文娛行業的一些基本概況。視頻文娛行業主要有兩大實體:視頻流量平臺和視頻觀眾。視頻流量平臺經過了幾輪發展,從有線電視到視頻點播平臺,再到直播平臺和短視頻平臺,這其中出現了很多風口,但他們都面臨一個痛點,就是如何利用視頻流量實現變現和盈利;對視頻觀眾來說,他們每天花費大量的時間觀看互聯網視頻,有著與視頻進行更好地互動的需求。
正是基于以上兩點需求,video++希望成為視頻文娛產業里的超級服務提供者,既為視頻流量平臺提供相應的視頻變現工具,也給終端客戶提供一種視頻互動工具。
截止到目前,video++已經與國內頭部流量平臺建立了深度合作,同時積累了大約60%的視頻用戶。由此,我們獲得了大量視頻流量數據,并為ai算法提供了必要的支撐。
在video++的主要技術構架里,最核心的就是ai算法。通過ai算法,我們可以輸出視頻中所出現目標的時間、空間等信息,包括它們的類別標簽。在ai算法的基礎上,我們包了一層videoos,也就是視頻操作系統。視頻操作系統基于底層的ai算法提供數據,從而為上層應用提供接口,繼而便可以在這個操作系統上開發出廣告、電商等各種不同的應用。
那么ai是怎么服務于視頻內容識別的呢?我們首先從數據開始,這里主要涉及視覺數據。視覺數據主要有幾類:最基礎的是圖像,其次還有視頻,視頻又分為工業級視頻和消費級視頻。video++主要專注于消費級視頻領域。
消費級視頻的第一個特點是數據規模大。據思科統計,截止到2015年,互聯網傳輸的數據中有70%為視頻數據,到2020年,這個比例將達到80%。而相比于專業級視頻,消費級視頻由于制作簡單、傳輸容易,體量相比專業級視頻來說是占據絕對優勢的;消費級視頻的第二個特點是類別來源多樣。廣義的消費級視頻包括像電影、電視劇、綜藝、直播、短時頻、廣告等等;消費級視頻的第三個特點是場景非常復雜,這是跟第二個特點是相輔相成的。消費級視頻中經常出現一些復雜場景,如鏡頭切換和縮放、特效植入、光照變化、模糊、遮擋、旋轉等。這些因素都為消費級視頻的內容識別提出了更高的要求。
消費級視頻的這些特點對系統提出了幾個要求:一、處理速度快;二、準確率高。
根據消費級視頻的特點,我們設計了一個消費級視頻內容識別的總體框架,主要分為五個步驟:第一個為視頻輸入層,第二個為視頻處理層,第三個為內容提取層,第四個為語義融合層,第五個為數據輸出層。其中,內容提取層是最核心的識別步驟。
最終,我們會輸出一個結構化識別結果數據,它主要包括視頻基本信息和目標軌跡列表。目標軌跡列表又分為起始幀號、軌跡長度等時間標簽,目標坐標列表等空間標簽,目標類別標簽等內容標簽以及識別結果置信度。
2. 消費級視頻分析的識別維度
我們目前可以識別人臉、場景、地標、物體、logo、情緒、動作、聲音等多維度內容。作為補充,我們還做了視頻內容的檢索。
在人臉識別的算法結構里,輸入視頻之后,首先要做視頻的預處理,也就是鏡頭分割。完成鏡頭分割之后再進行內容提取,對于人臉識別來說,內容提取主要是人臉檢測框的獲取和人臉id的識別。人臉檢測框的獲取又分為人臉檢測和人臉跟蹤。為了兼顧準確率和速度,我們一開始要對人臉在全局范圍內做一個檢測,檢測完之后再進行跟蹤。跟蹤時,我們會在跟蹤框周圍小區域里做一個局部檢測,從而對人臉檢測進行校正。之后是人臉對齊和質量評估。質量評估在視頻識別當中是非常重要的,因為視頻中有很多冗余數據會干擾結果。在質量評估之后,我們對質量比較好的采樣進行提取和特征比對。比對完之后,所有特征會生成一個識別label,這個label就屬于某一個人。在整個采樣序列上,每一幀都會有一個識別結果,為了將這個識別結果融合,我們創立了一個融合機制。
在場景識別的算法結構里,也需要對輸入視頻進行鏡頭的分割采樣。跟人臉識別不同的是,它不需要做全序列的采樣,可能只做一個時間間隔的采樣。在場景識別中,需要在前期對視頻做初分類,比如是古裝場景還是現代場景。做完預處理之后,進入到卷積神經網絡階段。卷積神經網絡通過對不同的數據集進行預訓練,得到不同的特征表述,最后把這些特征進行融合降維處理。得到最終的特征表示之后,我們會對不同場景進行分類處理:比如高頻場景、次級場景和新增場景分別有不同的處理方法。最后,我們會對識別結果進行融合。
在物體和logo的算法結構里,需要多尺度對特征進行提取,然后根據特征變化進行采樣,最后對特征進行融合。在這個算法里,要加入幾個新的東西,比如要識別物體軌跡,肯定要對它進行跟蹤;而關注的物體類別,也需要進行結果優化。
在地標識別的算法結構里,主要分為三步:一是通過基礎網絡對輸入圖片進行一個特征圖提取,可以通過roi pooling, pca白化等方式得到高維的特征描述,后續還可以用knn, mr等方式對特征描述進行后處理。此外,我們還可以通過數據增強的方式,對得到的特征進行增強。我們自主研發的算法主要做了以下優化:首先是對基礎網絡進行多層的特征提取并且融合;除此之外,我們還提取了一個多分辨率、多尺度的一個特征,可以在不同的特征通道上進行加權。
下面介紹一下視頻檢索,也就是以圖搜視頻的流程。首先,我們通過視頻下載、數據庫存儲、特征提取,特征排序等生成一個離線的特征表示數據庫。當用戶的需求過來之后,我們對用戶輸入的圖片視頻進行特征提取、比對排序和結構展示,這是一個標準的檢索流程。
在算法結構方面,用戶輸入之后,我們經過神經卷積網絡和索引得到初檢索的結果,再通過細檢索進行排序查詢,最后輸出鏡頭信息。另外,我們也可以通過劇目和視頻等信息進行子部檢索,減少搜索的任務壓力,同時提高算法準確率。
除了算法之外,我們還進行了一些工程化。在工程化過程中,我們主要解決了幾個問題:首先是對算法進行并行化,加速其運行;其次是應對高并發狀況,解決分布式系統和多任務調度的問題;之后是資源調度,對算法進行分割和 cpu+gpu配比;最后是高優先級任務處理策略。
3. 消費級視頻分析的解決工具——靈眸系統
下面介紹一下視頻結構化的整體解決工具——靈眸系統。這個靈眸系統主要有幾個功能:接收用戶上傳的視頻、對上傳的視頻進行分析、實時展示分析結果。除此之外,靈眸系統的另一大功能是樣本管理。我們首先進行了原始樣本收集,之后用原始樣本進行訓練,得到初始模型并上線。上線后,我們可以利用人工對錯誤的輸出進行審核、標注,從而用于改進這個模型。
靈眸系統的一個主要應用場景是ai情景營銷平臺(asmp)。它主要用于幫助廣告商在對流量平臺上進行廣告投放。ai情景營銷平臺不僅支持低層的語音信息,還可以支持一些高層領域,如情景。一個情景當中往往有很多的語義元素,如場景、物體、人臉等等,不同的低層語義可以組合出很多的高層情景。廣告商所關注的是對應商品在對應視頻中出現的情景,而靈眸系統可以幫助它自動尋找視頻中跟對應商品對應的情景,去做自動化投放。
另一個應用場景是ai內容審核平臺(acap)。內容審核主要分為幾個方面:智能監黃、智能鑒暴、政治敏感人物識別和涉毒涉政明星。目前,視頻中敏感因素的識別主要是通過人工來做的,需要消耗很大人力。因此,對于視頻平臺來說,都有利用ai技術替代一部分人力做內容審核的需求。雖然我們現有的ai識別技術還不能完全取代人工,但假定我們的ai識別技術可以達到90%,至少就可以替換大部分人類的工作。
4. 數據對于ai的重要性
最后我想強調一下數據對ai的重要性。數據是ai的生命,可以說,沒有數據就沒有ai,任何的ai算法都是建立在數據之上的。
我們在設計ai算法的過程中應當思考這么一些問題:
1、什么樣的訓練數據是比較好的數據?
2、常規數據操作有哪些?
3、如何獲取“高效”的數據?
4、數據管理工具的巨大作用?
我今天的分享就到這里,謝謝大家。
關于極光
來源:鳳凰網
以上是網絡信息轉載,信息真實性自行斟酌。