2025-06-19 17:19
發布
由于機器學習算法,一只機器人狗可以在短短20分鐘內學習在不熟悉和難以提高的地形(例如草,樹皮和遠足徑)上行走。
大多數自主機器人必須經過人類仔細編程或在模擬場景中進行廣泛測試,然后才能執行現實世界中的任務,例如走上巖石山或濕滑的斜坡 - 當他們遇到陌生的環境時,他們傾向于掙扎。
現在,加州大學伯克利分校的Sergey Levine及其同事表明,使用一種機器學習的機器人稱為“深鋼筋學習”可以弄清楚如何在幾個不同的環境中走到20分鐘的時間里,例如草坪,一層樹皮,一層樹皮,記憶泡沫墊和一條遠足步道。
機器人使用一種稱為Q-學習的算法,該算法不需要目標地形的工作模型。這種機器學習算法通常用于模擬。萊文說:“我們不需要了解環境的物理學實際運作方式,我們只是將機器人放入環境中并打開環境。”
取而代之的是,機器人會對其執行的每個動作獲得一定的獎勵,具體取決于預定義的目標的成功。它不斷地重復此過程,同時比較其先前的成功,直到學習走路為止。
“從某種意義上說,這與人們的學習方式非常相似,”加州大學伯克利分校的團隊成員Ilya Kostrikov說。“與某些環境互動,獲得一些實用性,基本上只是考慮您過去的經驗,并嘗試了解可以改善的事情。”
盡管機器人可以學習在遇到的每個新表面上行走,但萊文說,如果機器人要學習其他技能,團隊將需要微調模型的獎勵系統。
克里斯·沃特金斯(Chris Watkins)在倫敦大學皇家霍洛威(Royal Holloway)的克里斯·沃特金斯(Chris Watkins)說,由于必須同時進行相互作用的不同變量和數據,因此在現實世界中進行深入的學習工作非常困難。
沃特金斯說:“我認為這給人留下了深刻的印象。”“老實說,我有些驚訝的是,您可以使用像Q學習一樣簡單的東西來學習技能,例如在實時經驗很少,如此迅速的不同表面上行走。”
參考: arxiv.org/abs/2208.07860