這個世界上沒有任何東西能夠非常接近人手的敏捷性和靈活性,無論是動物還是機器人。對于埃隆·馬斯克創立的非營利組織openai的工程師來說,這既是挑戰也是機遇。它們的研究人員如何使用人工智能來教導機器人像人一樣巧妙地操縱物體?
通常,在教授ai來控制物理機器人時,科學家們往往會遇到同樣的問題。培訓通常使用強化學習來完成;ai通過反復試錯的學習方法。但這需要很多時間,幾乎相當于多年的經驗。如果你想讓ai打贏一場電子游戲,很簡單,你只需要讓它以更快的速度玩游戲。但如果你想教它一個真實的任務,那就麻煩了。你無法等待機器人手臂經歷多年的練習,并且很難足夠準確地出于訓練目的模擬世界。
對于openai,它們自己設定的任務是教一個機器人用手來操縱一個六面立方體;將這個立方體從一個位置移動到另一個位置,使特定的一面朝上。與早期的研究一樣,首先盡可能準確地模擬這種環境,但下一步卻產生差異:開始弄亂模擬。
圖片來源:openai
首先,添加了隨機視覺噪音;然后,改變了虛擬手和立方體的顏色。它們隨機化了立方體的大小;表面有多滑;有多重。它們甚至弄亂了模擬的重力。所有這一切的效果是讓ai更好地理解在現實世界中操縱立方體的可能性。雖然模擬可能不是完全真實的,但它有足夠多的變化,允許系統學習處理意外。
參與該項目的openai的matthias plappert解釋說,改變模擬的重力是一個特別有趣的變量。該團隊知道,當ai系統(稱為dactyl)正在控制真正的機器人手時,手的基部每次可能不會以相同的角度定位。較低的角度意味著立方體會更容易從手中掉落。為了教dactyl如何處理這種變體,他們決定將模擬中的重力隨機化。 “沒有這種隨機化,它就會一直弄丟物體,因為不習慣。”plappert說。
通過所有這些隨機化需要很長時間。很長一段時間。事實上,dactyl必須積累大約100年的經驗才能達到最佳表現。反過來,這意味著團隊必須使用大量的計算能力 —— 大約6,144個cpu和8個非常強大的英偉達 v100 gpu。這種硬件只有極少數研究機構才能使用。
但plappert說,最終的結果是值得的。完成訓練后,dactyl能夠將立方體從一個位置移動到另一個位置,連續50次,而不會掉落。 (雖然它這樣做的中位數要小得多;只有13次。)在學習移動立方體的過程中,dactyl甚至開發了類似人類的行為。所有這些都是在沒有任何人為指導的情況下學到的 —— 只是反復試錯,幾十年一次。
“這表明我們人類為操縱所做的事情是非常優化的。”plappert說。 “當你看到一個試圖解決問題的機器人時,這是一個非常有趣的時刻,你會想‘噢,嘿,我也會這樣做。’”
圖片來源:openai
機器人技術和人工智能領域的專家對the verge高度贊揚了openai的工作,但警告說它并不代表機器人操縱有了突破。卡內基梅隆大學機器人研究所的smruti amarjyoti指出,隨機化系統訓練環境的想法之前已經完成,但是說dactyl的動作是“優雅的”,他認為對ai來說是不可能的。
“最終的結果非常復雜和精細。”amarjyoti說,“[但]我認為openai在這一領域的最大成就將是,它所采用的工程協調以及用于實現這一壯舉的計算能力。”
istituto italiano di tecnologia的機器人學教授安東尼奧·比奇(antonio bicchi)表示,這項研究“優雅且令人著迷”,但指出了一些局限性。 “結果仍然局限于在相當有利的條件下(手正面朝上,所以骰子落在掌中)進行的一個特定任務(滾動一個大小合適的模具),對于這些技術能解決現實世界的機器人問題,甚至不是一個確鑿的論據。”比奇說。
對于openai來說,這項研究大體上是令人滿意的。該系統使用了許多與實驗室開發的相同算法和技術,來教授其電子游戲機器人openai five。該公司建議,這表明它正在構建通用算法,可以用來處理各種各樣的任務,對于雄心勃勃的ai實驗室和公司來說,這是一個里程碑。
在人工智能的幫助下創建更靈巧的機器人,對于嘗試自動化手工勞動的公司來說,將是一個巨大的福音,并且有許多初創公司積極地在該領域進行研究。 但是,提高機器人技術的先進水平肯定會讓更多的工作崗位自動化,而這種工作破壞浪潮是否可以被新技術創造的工作所抵消,這是一個懸而未決的問題。
來源:網絡
以上是網絡信息轉載,信息真實性自行斟酌。