以18世紀為起點的300余年間,世界跑完了一場關于自動化、電氣化、信息化三次工業革命的馬拉松。每一次主導技術的改變,都使那一時間節點上人類的生活水平、工作方式、社會結構邁入下一個嶄新的節點,同時也開發了社會的經濟潛能。近年,深度學習算法的突破,不僅僅讓人工智能迎來了歷史上的第三次熱潮,也讓我們看到了工業革命的浪潮將有望再一次被掀起。
隨著人工智能的三大核心要素,算法、算力、數據的日益完善,人工智能眾多應用型技術也開始逐漸滲透各個行業、影響著人類生活方式,可見,工業革命的馬拉松還未跑完,而我們正逐步邁進智能新時代。筆者將分別從人工智能最基本的幾個模塊,語音識別、自然語言處理、計算機視覺、決策規劃系統著手,回顧人工智能一路以來的發展脈絡,以史為鏡、正視未來。
語音識別
人類最直接最簡潔的交流方式——語音識別,一直是人工智能實現人機交互尋求突破的一大目標。在1952年,第一個基于電子計算機的語音識別系統“audrey”面世,作為“開山鼻祖”,它能夠識別10個英文數字,正確率高達98%。之后的70年代,在全球開始風靡大規模的語音識別研究,但認知局限使得當時的研究僅停留在對孤立詞、小詞匯量句子的識別上。
由于全球性電傳業務積累了大量文本,且文本可作為機讀語料用于模型的訓練和統計,1980年代就成為了技術取得突破的時代,研究的重點也轉向了大詞匯量和非特定人的連續語音識別上,同時研究思路從基于匹配轉變為基于統計,隱馬爾科夫模型(hmm)的理論和應用趨于完善。20世紀90年代是語音識別基本成熟的時期,但識別效果的實用價值仍然需要完善,語音識別研究的進展也趨于趨緩。
隨著深度神經網絡(dnn)被應用到語音的聲學建模中,深度學習帶來了技術上的全新突破,音素識別任務和大詞匯量連續語音識別任務都取得了進一步發展?;趃mm-hmm的語音識別框架被基于dnn-hmm的語音識別系統所替代,系統的持續改進使深層卷積神經網絡和引入長短時記憶模塊(lstm)的循環神經網絡(rnn)出現,這樣,識別效果就得到了明顯的提升,許多語音識別任務,尤其是近場語音識別任務達到可以進入人們日常生活的標準。以apple siri為首的智能語音助手、以echo為首的智能硬件入口等應用的普及,進一步擴充了語料資源的收集渠道,使得構建大規模通用語言模型和聲學模型將成為可能。 表一為語音識別技術的發展歷程。
表1 語音識別技術發展歷程
自然語言處理
語言交流是人類在日常生活中不同個體間信息交換和溝通的重要途徑。因此,能否自然地與人類進行交流、理解人們表達的意思并做出合適的回應,被認為是衡量機器智能程度的一個重要參照,自然語言處理也成為人工智能的核心問題。
早在上世紀50年代,ibm第一臺正式對外發布的ibm-701計算機進行了世界上第一次機器翻譯試驗,把幾個簡單的俄語句子翻譯成了英文。電子計算機的出現,已然使機器翻譯滿足當時自然語言處理的任務需要,人們對于自然語言處理存在兩派不同的處理方法。一種是基于規則的符號派,另一種為基于概率的隨機派,而受限于當時的數據和算力,規則派的研究更具優勢。在翻譯方面,當時人們認為機器的翻譯過程是在解讀密碼,于是試圖讓機器通過查詢詞典的方式來實現翻譯,但達到的結果卻不令人滿意:翻譯效果不佳、難以實用。
1966年,美國科學院的語言自動處理咨詢委員會(alpac),發布了一篇題為《語言與機器》的研究報告,全面否定了機器翻譯的可行性,認為機器翻譯難以克服現有的困難且沒有實用價值,因此許多國家開始大幅度減少在這方面的經費投入,自然語言研究從此陷入低谷。從中,研究者們意識到機器和人類兩種語言間的差異體現在詞匯和句法結構上,通過加強語言模型和語義分析的研究,從而可以提升譯文的可讀性。
1976年,是具有里程碑意義的一個時間點。這一年,加拿大蒙特利爾大學與加拿大聯邦政府翻譯局聯合開發了名為taum-meteo的機器翻譯系統,提供天氣預報服務。這個系統每小時可以翻譯6-30萬個詞,每天可翻譯1-2千篇氣象資料,并能夠通過電視、報紙立即公布。到了90年代,自然語言處理進入了發展時期。
隨著計算機的計算速度和存儲量大幅增加、大規模真實文本的積累產生,以及被互聯網發展激發出的、以網頁搜索為代表的信息檢索和抽取需求出現,人們對自然語言處理的熱情空前高漲。在基于規則的傳統處理技術中,人們引入了更多數據驅動的統計方法,將自然語言處理的研究推向了一個新高度,除了機器翻譯之外,網頁搜索、語音交互、對話機器人等領域的發展都有自然語言處理的功勞。
進入2010年以后,基于淺層、深層學習技術和大數據,自然語言處理的功能得到了進一步優化,專門的智能翻譯產品面世,對話交互能力被應用在客服機器人、智能助手等產品中。機器翻譯方面,谷歌推出的神經網絡機器翻譯(gnmt)相比傳統的基于詞組的機器翻譯(pbmt),英語到西班牙語的錯誤率下降87%,英文到中文的錯誤率下降58%,取得了非常顯著的提升。表2為自然語言處理功能的發展歷程。
表2 自然語言處理功能發展歷程
計算機視覺技術
九十年代,計算機視覺技術取得了更大的發展,開始廣泛應用于工業領域。一方面是圖像處理硬件技術有了飛速進步,另一方面是人們也開始嘗試不同的算法,包括統計方法和局部特征描述符的引入。在“先驗知識庫”的方法中,事物的形狀、顏色、表面紋理等特征受到視角和觀察環境所影響,在不同角度、不同光線、不同遮擋的情況下會產生變化。因此,人們找到了一種方法:通過局部特征的識別來判斷事物,對事物建立一個局部特征索引,即使視角或觀察環境發生變化,也能比較準確地匹配上。
21世紀,得益于因互聯網興起和數碼相機出現而帶來的海量數據,加之機器學習方法的廣泛應用,計算機視覺發展迅速。以往許多基于規則的處理方式,都被機器學習所替代:自動從海量數據中總結歸納物體的特征,然后進行識別和判斷。這一階段涌現出了非常多的應用,包括典型的相機人臉檢測、安防人臉識別、車牌識別等。
2010年,借助于深度學習的力量,計算機視覺技術得到了爆發增長和產業化。通過深度神經網絡,各類視覺相關任務的識別精度都得到了大幅提升。在全球最權威的計算機視覺競賽ilsvr上,千類物體識別top 5錯誤率在2010年和2011年時分別為28.2%和25.8%,2012年引入深度學習之后,后續4年分別為16.4%、11.7%、6.7%、3.7%,出現了顯著突破。由于效果的提升,計算機視覺技術的應用場景也快速擴展,除了在比較成熟的安防領域應用外,也有應用在金融領域的人臉識別身份驗證、電商領域的商品拍照搜索、醫療領域的智能影像診斷、機器人/無人車上作為視覺輸入系統等,包括許多有意思的場景:照片自動分類(圖像識別+分類)、圖像描述生成(圖像識別+理解)等。表3為計算機視覺別技術的發展歷程
圖 計算機視覺別技術發展歷程
規劃決策系統
人工智能規劃決策系統的發展,一度是以棋類游戲為載體的。早在18世紀,就出現過一臺可以下棋的機器,當時幾乎擊敗了所有人類棋手,后來才知道,這僅是一場騙局罷了。之后,電子計算機誕生,1962年基于人工智能的規劃決策系統出現,arthur samuel屢次改進的西洋跳棋程序checkers終于戰勝了人類棋手的州冠軍,證明程序已具備了初步的自我學習能力,使得這場勝利在當時引起了巨大的轟動。
但人工智能所面臨的困難比人們想象得還要難的多,以當時的計算能力,機器若想通過暴力計算戰勝人類象棋棋手,每步棋的平均計算時長需要以年為單位。于是人們開始將“剪枝法”運用到了估值函數中,通過剔除低可能性的走法優化最終的估值函數計算。在此改進下,西北大學開發的象棋程序chess 4.5在1976年首次擊敗了頂尖人類棋手。隨著算法上的不斷優化,國際象棋程序由80年代開始,在判斷能力和計算速度方面大幅提升,幾乎已經能夠擊敗所有頂尖的人類棋手。1997年那場著名的人機大戰中,由于機器的運算硬件性能和算法能力等都已得到了大幅提升,由ibm研發的深藍(deepblue)戰勝了國際象棋大師卡斯帕羅夫。
2016年,硬件層面出現了基于gpu、tpu的并行計算,算法層面上出現蒙特卡洛決策樹與深度神經網絡的結合。4:1戰勝李世石、在野狐圍棋對戰頂尖棋手60連勝、3:0戰勝世界排名第一的圍棋選手柯潔,足以表明人類在博弈游戲中已經完全敗給機器。由此,從棋類游戲中積累的知識和經驗被應用在更廣泛的需要決策規劃的領域,包括機器人控制、無人車等等,人工智能進入一個新的發展階段。表4為規劃決策系統的發展歷程。
表4 規劃決策系統發展歷程
來源:通信世界網
以上是網絡信息轉載,信息真實性自行斟酌。