人工智慧機器人最佳導師竟是狗狗?!(上) @ 嫩嫩的程式學習紀錄

人工智慧機器人最佳導師竟是狗狗?!(上)

你能想像人工智慧機器人的最佳導師竟然是狗狗嗎?(上)

近日，Google 人工智慧研究團隊最新發表的機器人研究日誌中，詳細介紹了他們所研發的四足機器人如何流暢動作和透過 AI 技術自學行走。

目前的機器人仍然需要許多人工參與，而 Google 建立的技術，讓機器人只需 8 分鐘的動作資料，就能自己學會向前、向後以及左右轉彎等運動，再也不用常常得扶起翻倒的機器人。

Google人工智慧研究員讓機器人「向狗學習」

為了能夠開發出行動敏捷、不需要人工協助的機器人，Google 的人工智慧機器人研究科學家可以說是絞盡腦汁，在觀察到自然界各種動物矯健又不費力的身手後──如翻身飛躍咬住飛盤的狗兒；研究人員決定向大自然取經，讓這些動作靈巧的小生物擔任機器人的老師，學習快速流暢的動作。

運動模仿、強化學習與自適應控制技術

研究人員先建立一套能夠模仿學習的人工智慧技術，目的是希望讓四足機器人可以藉由模仿真實世界的狗來學習敏捷的動作。

首先，研究人員捕捉真狗的各種動作，諸如小跑、跳躍與起身等等，做為機器人執行各種技能的參考運動，並使用強化學習（Reinforcement Learning；RL）技術訓練控制策略，以仿效真實狗狗的動作。

▲強化學習技術用於訓練模擬機器人來仿效狗的動作。

在物理模擬的策略訓練上，透過對不同的參考運動使用不同的獎勵函數，在每個連續時步密切跟蹤參照的動作，訓練模擬機器人模仿各種不同的動態。

研究人員先在模擬環境完成訓練機器人的策略，接著再使用自適應控制技術（Adaptive control）將訓練好的策略實現在真實世界中，利用真實機器人的資料，高效地自適應策略，使研究人員能「教」一台四足機器人快走、跳躍或轉彎。

但由於模擬終究無法匹敵真實，模擬中訓練的策略應用在真實機器人上效果不甚佳。

為此，研究人員使用潛在空間（Latent Space）適應技術，通過改變機器人的質量和摩擦等物理量來隨機化模擬訓練中的動力學，將數值用編碼器映射到一個數字表示（即編碼），在訓練過程中將此編碼作為附加輸入傳遞給控制策略，當將該策略部署到一個真實的機器人上時，研究人員刪除編碼器，並直接在潛在空間中搜索一組允許機器人成功執行技能的變量。

這個方式可以說是十分成功，讓機器人能夠成功地執行現實世界中所需的動作。並且只要有 8 分鐘的資料供機器人參照，不只能從影片學會狗的走路動態，即使是動畫師製作的動畫，機器人也能從中學會轉頭等的複雜動作。

本篇為上篇，下篇請點此連結