由伊隆 · 馬斯克(elon musk)創辦的非盈利性人工智能組織 openai,今天向我們展示了一項新的研究成果:讓機械手可以像人手一樣抓取和操縱物體。雖然這種仿真造型的手掌我們已經見過很多了,但讓 “手指” 能夠和人類的真手一樣靈活可動,對機械結構來說可不是一件簡單的事。
但你在下面的動圖中也能看到,這套名為 dactyl 的機械手系統能夠按照指令要求,輕松完成轉動立方體的動作,而且這種包含各種技巧的指尖操作,顯然要比過去我們所看到的機器人行走跳躍復雜得多。
dactyl 自所以能夠實現這么高效的運作,和 open ai 使用的強化學習算法有關系。就像是剛出生的小孩一樣,ai 或是機器人剛造出來后同樣什么都不懂,如果你希望它能夠完全理解某項復雜任務的流程,肯定需要進行反復的訓練。
尤其是對于真實存在的物理機器人來說,研究人員往往要耗費大量的現實時間對其進行指導練習。
但 openai 現在的做法,則是完全在虛擬環境中對 ai 機器人進行訓練,然后再把 ai 應用在實體機器人身上。他們還會在訓練的過程中增加大量的動態隨機事件,讓 ai 在這個過程中自己領悟出完成任務的訣竅。
以這次的機械手掌為例,首先,他們會教導機械手臂按照指令,將六面立方體中的正確顏色翻轉出來;然后便開始改變周圍環境的燈光和噪聲,以及立方體的顏色、重量、紋理和摩擦力等;甚至還會改變訓練過程中的重力環境因素。
之所以會加入這些隨機化的變量,也是為了讓 ai 能更好的應對各種意外情況的發生:“比如說不同的重力環境下,dactyl 自己就會去領悟這會對立方體操控造成哪些影響。不然在現實世界中,一旦我們改變手臂的高度,重力環境發生改變,立方體可能就會從手中滑落。”
另外,由于不用模仿人類的行為,所以 openai 的訓練方式也可以允許 ai 充分去思考人類沒有思考過的方式,說不定還能獲得意想不到的成果。
這種虛擬環境的訓練模式還有一個好處,那就是不會耗費現實世界的時間。目前 dactyl 已經積累了大約 100 年的訓練經驗,嘗試用無數種方法來控制立方體的轉動,但實際上這個過程只相當于我們現實世界中的 50 個小時而已。
在虛擬世界里完成訓練后,ai 就可以應用這些經驗去分析現實世界里的動態因素,并調整自己的行為來完成任務了。如今 dactyl 已經可以連續完成 50 次的立方體旋轉操作,且不會出錯。
值得一提的是,這種超高效的訓練模式不僅能運用在物理機器人上,也同樣可以用于其它的虛擬 ai 模型。在去年 7 月份,openai 開發的 open ai five 也同樣在虛擬世界里經歷了上萬個小時的學習,實際上只是花費了幾天的時間,然后它便在 dota2 游戲中擊敗了職業選手 dendi。
雖然只是一次 solo 對決而非 5v5,但依舊讓我們看到了人工智能在電競這種復雜領域的有效性,包括我們所熟知的 “圍棋殺手” alphago,也是 deepmind 公司使用深度強化學習訓練出來的 ai 模型。
據說強化學習的靈感最早來源于人類對自然界動物學習過程的長期觀察,之所以近幾年內才開始嘗試,也是受益于神經網絡技術的進步,以及 openai 本身的規模優勢。一旦強化學習的基準更為多樣和復雜,自然也得付出不小的運算成本。
按照 openai 給出的數據,dactyl 的訓練設備動用了約 6144 顆 cpu,以及 8 顆來自 nvidia 的 v100 gpu,這種規模的基礎硬件只有很少數的研究機構才能夠使用。
總得來說,openai 提出的 “將模擬環境的成果應用到現實世界” 會是開發通用機器人的有效解決方案之一,但也有機器人專家認為,這種程度的實驗結果只會局限在某一個特定任務上,能否真正解決現實世界的難題,則仍然是一個未知數。
來源:鳳凰網
以上是網絡信息轉載,信息真實性自行斟酌。