刪過幾十億個賬號,facebook的人工智能是怎么培養出來的?
2020-03-14 21:00來源:
原標題:刪過幾十億個賬號,facebook的人工智能是怎么培養出來的?
對于facebook而言,如何監督管理這個龐大的社交網絡已日益成為一個關乎生死存亡的問題。
facebook揭開了一項關鍵性技術的面紗,這項技術可以幫助facebook應對最艱巨的挑戰:清除用于垃圾廣告宣傳、虛假信息傳播等各種活動的虛假賬戶。
周三,這家互聯網媒體巨頭透露了一些細節,解釋它如何設計出一個人工智能系統,加以訓練,讓它能自動準確檢測違反網站政策的賬戶。
隨著在世界各地面臨的監管壓力不斷增大,對于facebook而言,如何監督管理這個龐大的社交網絡已日益成為一個關乎生死存亡的問題。社交網絡在方方面面起到的作用越來越重要,這讓公眾和立法者都感到措手不及,尤其對平臺上的仇恨言論、網絡霸凌、網絡釣魚和金融欺詐行為擔憂。
五年前,facebook主要依靠用戶向人工審核員舉報來處理違規賬戶。但facebook需要處理的問題賬戶數目巨大:根據該公司最近一次公布的數據,2019年第三季度,facebook屏蔽了約17億個違規賬戶。facebook社區誠信團隊的數據科學經理博克拉·加爾鮑伊說,這還不包括一開始申請時就被facebook禁止創建的賬戶。facebook估計,任何時段的活躍賬戶中都有5%是假的。
依靠人工審查也會產生其他問題。facebook雇傭合同工來審查可疑內容和行為,但這些合同工通常收入微薄,而且由于經常接觸令人不安的帖子、圖片和視頻,他們的精神健康很容易出現問題。
2018年,facebook的創始人兼首席執行官馬克·扎克伯格告訴美國國會議員,該公司可以利用人工智能處理大量有問題的內容。但直到最近,公司的研究人員和工程師才開始取得進展。
該公司表示,得益于人工智能的幫助,2019年第三季度,facebook屏蔽的虛假賬戶中,有99.7%的賬戶在其他用戶向人工審查小組舉報之前,就已經得到了處理。
在此過程中,facebook遇到了一個棘手的問題:它希望能夠抓住并阻止所有違反網站政策的行為,處理每一個虛假賬戶,同時保證不會在無意中屏蔽合法用戶。但是,如果它檢測違規行為、采取行動的標準過于寬松,會導致合法用戶成為受害者,而公司可能會置身于另外一場公關災難的中心。
加爾鮑伊說,誤傷和漏網都要盡量減少。“這個權衡非常難。”她說。
facebook社區誠信團隊的產品經理布拉德·沙特爾沃思解釋說,另外一個原因是,騙子們總是在嘗試找辦法繞過facebook的防御。
facebook研發的這項機器學習技術被稱為“深度實體分類”,或簡稱為dec,其他有需要的公司也可以拿來使用,比如社交網絡同行、即時通訊應用程序公司或游戲公司,丹尼爾·伯恩哈特說。他是facebook倫敦社區誠信團隊的工程經理,參與了開發該系統。該公司正在公開dec的總體架構和它的訓練細節,但沒有把訓練過的模型提供給其他公司。
dec依賴于一些聰明的想法和工程技術。首先,facebook意識到,通過讓算法審查標準賬號的特點(如創建賬號的ip地址、賬戶的年齡、頁面上收獲點贊的數量、有多少關聯賬戶等)來達到訓練效果,會導致篩查模型對于圖謀不軌的人太過簡單,或者造成過多誤傷。
facebook的解決方案是,不孤立地審查每一個賬戶,而是把它置于所鏈接到的所有賬戶和頁面中組成的環境中,延伸到二度分離。然后向系統提供聚合指標,比如全部一級和二級連接好友數量的中位數,而非單個賬戶的“點贊”或“好友”等表面特征。(這些指標本身并不能說明一個賬戶是否合法。它們只是一種方法,可以大大增加模型分析的指標數量,從而構建一個更詳細的賬戶統計圖。)facebook稱這些數據為“深度特征”,對于惡意行為者來說,調整這些數據更加困難,從而大大降低了誤傷或漏網的數量。
盡管facebook規模龐大,又雇了成千上萬名人工審查員,但facebook仍然表示,要想創建高質量、經人工標注的大規模數據庫來訓練人工智能算法,確保它能夠按照facebook要求的99%以上的準確率檢測每種違規類型(如假賬戶、垃圾郵件發送者、金融詐騙犯或被盜賬戶),仍然極其昂貴耗時。
所以facebook第二個聰明的地方是使用一個高質量的、人工標注的小型數據集(通常小到不適合用于訓練高準確度深度學習算法),再加上一個更大的、電腦標注、準確性略低的數據集對前者進行優化。這一點通過將系統劃分為兩個單獨的模塊來實現。
在第一個模塊中,facebook先將擁有單個賬號深度特征的數據集在多層神經網絡上運行,多層神經網絡是一種基于人腦的機器學習軟件。在這種情況下,算法必須了解哪種深度特征的范式與哪種類型的賬戶相關:是普通賬戶、垃圾郵件賬戶還是釣魚賬戶?為了做到這一點,它還需要參照內含萬個虛假賬戶的海量培訓樣本,這些賬戶已經被現有各類不同軟件進行了粗略標注。
facebook從中提取每種賬戶類型的統計范式,然后將其輸入第二個模塊,利用另一種稱為梯度提升決策樹的機器學習算法,按類別——垃圾郵件、假賬戶、釣魚、霸凌等——給賬戶打分,但使用的是一組規模較小、高質量、人工標注的訓練數據。(以虛假賬戶為例,約有10萬個人工標注的樣本。)評分結果將決定facebook是否以及將對該賬戶采取什么行動。
最終,該系統在賬戶分類上的準確率達到97%以上,遠遠優于其他方法。
編輯 ∑gemini
來源:搜狐
以上是網絡信息轉載,信息真實性自行斟酌。