蹣跚學(xué)步的孩童,學(xué)會了跌倒后如何站起來,慢慢感受平衡,最終學(xué)會用雙腿走路,這個過程很大程度上是通過反復(fù)試驗學(xué)會的。但是,波士頓動力公司的Spot和Atlas等機器人并不是這樣的,他們被精心編碼處理特定的任務(wù),結(jié)果可能會非常好,但是在軟件編程沒有設(shè)計到情況下,機器人可能就會無所適從。據(jù)國外媒體1月6日消息,來自中國浙江大學(xué)和英國愛丁堡大學(xué)的一個聯(lián)合研究小組稱,他們開發(fā)出了更好的方式來解決這樣的問題。
在最近發(fā)表在《科學(xué)機器人》雜志上的一篇論文中,聯(lián)合研究小組詳細(xì)介紹了一種人工智能強化方法,他們用這種方法讓自己的機器狗“絕影”學(xué)會如何走路和自主從跌倒中恢復(fù)過來。該團(tuán)隊表示,他們首先在模擬環(huán)境中通過軟件訓(xùn)練虛擬機器人。這個軟件由八名經(jīng)過培訓(xùn)以掌握特定技能的AI“專家”組成,例如,一個“專家”訓(xùn)練機器人流利的行走,而另一個訓(xùn)練機器人如何保持平衡。每次虛擬機器人成功完成一項任務(wù)時,團(tuán)隊都會以虛擬積分獎勵它。這個過程聽起來與Google最近用來訓(xùn)練MuZero算法的方法相同。
當(dāng)八種專項技能培訓(xùn)完成后,研究團(tuán)隊開發(fā)了一個額外的神經(jīng)網(wǎng)絡(luò),有些類似于運動隊伍中的總教練管理,它將管理其他八種專項技能,在特定的情況下,還會根據(jù)需要對一種或者多種技能進(jìn)行優(yōu)先排序。最后,研究團(tuán)隊會將軟件移植到原型機器人上進(jìn)行實際測試。
他們研究的目標(biāo)是創(chuàng)造更加智能化的機器人,這種機器人能夠在行進(jìn)中更加靈活地根據(jù)實際情況自適應(yīng)選擇技能,以便于處理未經(jīng)訓(xùn)練過的任務(wù)內(nèi)容。目前,該團(tuán)隊面臨的挑戰(zhàn)之一是如何減少模擬機器人訓(xùn)練所需要的計算力,這樣研究才更具有實用性價值。