控制算法手記——腿足運(yùn)動(dòng)控制(4)
文:文/李磊2025年第二期
摘 要 : 考慮到強(qiáng)化學(xué)習(xí)帶來(lái)的驚艷運(yùn)控效果、靈活調(diào)整的訓(xùn)練框架和策略網(wǎng)絡(luò)結(jié)構(gòu)、以及仿真-訓(xùn)練-部署工具鏈的成 熟,對(duì)于腿足機(jī)器人的運(yùn)控是否可以All in DRL深度強(qiáng)化學(xué)習(xí)?基于模型的運(yùn)動(dòng)控制是否還有深入研究的必要呢? 這些問(wèn)題已經(jīng)盤(pán)亙?cè)诠P者頭腦里多時(shí),為此本文希望從現(xiàn)有強(qiáng)化學(xué)習(xí)范式下的訓(xùn)練部署框架分析,給出自己的思 考和見(jiàn)解,以做拋磚引玉之論。
文/李磊
在前文中,重點(diǎn)分析了腿足機(jī)器人的運(yùn)動(dòng)特點(diǎn),以及 對(duì)腿足機(jī)器人運(yùn)動(dòng)控制性能的具體需求,從控制系統(tǒng)的角 度進(jìn)行理解,這種范式下的訓(xùn)練,得到的策略網(wǎng)絡(luò)本質(zhì)上 是一種利用海量離線數(shù)據(jù)學(xué)習(xí)到的“靜態(tài)”、“非線性”、 “最優(yōu)”、“狀態(tài)反饋”控制率,考慮到強(qiáng)化學(xué)習(xí)帶來(lái)的驚 艷運(yùn)控效果、靈活調(diào)整的訓(xùn)練框架和策略網(wǎng)絡(luò)結(jié)構(gòu)、以及 仿真-訓(xùn)練-部署工具鏈的成熟,對(duì)于腿足機(jī)器人的運(yùn)控是否 可以All in DRL(即:深度強(qiáng)化學(xué)習(xí)Deep Reinforcement Learning,DRL)?基于模型的運(yùn)動(dòng)控制是否還有深入研究 的必要呢?
注:近年來(lái),隨著相關(guān)算法、仿真平臺(tái)、訓(xùn)練框 架、硬件和工具鏈的成熟,深度強(qiáng)化學(xué)習(xí)DRL(Deep Reinforcement learning)控制方法在無(wú)人機(jī)、腿足機(jī)器 人(四足、雙足、人形等)、自動(dòng)駕駛等機(jī)器人運(yùn)動(dòng)控制 領(lǐng)域展露頭角,取得了令人印象深刻的控制效果,體現(xiàn)出 了優(yōu)越的魯棒性和泛化能力。對(duì)于這些典型的欠驅(qū)動(dòng)系統(tǒng) (Underactuated System),強(qiáng)化學(xué)習(xí)端到端(End-to- End)的控制方案正在取代基于模型的控制中(規(guī)劃-跟蹤控 制-狀態(tài)估計(jì))分層、模塊化控制方案,成為學(xué)術(shù)界和工業(yè) 界追逐的潮流。
1 當(dāng)前學(xué)習(xí)范式下運(yùn)控性能特點(diǎn)
當(dāng)前學(xué)習(xí)范式訓(xùn)練得到的策略實(shí)際部署在機(jī)器人上 時(shí)相當(dāng)于采用了一張巨大的查詢(xún)表格,只需少量的推理運(yùn) 算計(jì)算量(查找表格)輸出控制值,其控制頻率可輕易達(dá) 50~100Hz,這比涉及到復(fù)雜非線性約束優(yōu)化的MPC優(yōu)秀得 多。加上,相關(guān)工具鏈的成熟和開(kāi)源方案,大幅降低了應(yīng)用 “門(mén)檻”,得到的靜態(tài)非線性最優(yōu)狀態(tài)反饋控制率,使得采 用強(qiáng)化學(xué)習(xí)進(jìn)行腿足機(jī)器人運(yùn)動(dòng)控制體現(xiàn)出以下性能特點(diǎn):
(1)復(fù)雜手動(dòng)獎(jiǎng)勵(lì)工程,預(yù)期行為生成難
當(dāng)前學(xué)習(xí)范式的訓(xùn)練過(guò)程只是在無(wú)"意識(shí)"地通過(guò)策略迭 代的方式最大化累積回報(bào),策略收斂時(shí),僅僅表明智能體利 用特定策略梯度算法取得了當(dāng)前仿真交互數(shù)據(jù)集意義下的最 優(yōu),并不對(duì)應(yīng)著物理世界下的預(yù)期行為。腿足機(jī)器人可能會(huì) 學(xué)到快速拖地行走的"偷懶"行為,盡管這種行為對(duì)應(yīng)著預(yù)設(shè) 獎(jiǎng)勵(lì)函數(shù)意義下的最優(yōu),但并沒(méi)有體現(xiàn)出特定步態(tài)、步態(tài)頻 率、正常抬腿-擺動(dòng)-落地等類(lèi)似于其仿生對(duì)象自然/柔順的行 為;仿真交互數(shù)據(jù)受到初始狀態(tài)分布(如腿足機(jī)器人的初始 構(gòu)型狀態(tài))/探索-利用平衡影響,導(dǎo)致其離預(yù)期行為數(shù)據(jù)偏 離較遠(yuǎn)。
為生成預(yù)期行為,人們?cè)谌蝿?wù)獎(jiǎng)勵(lì)函數(shù)項(xiàng)時(shí)通常會(huì)加 入各類(lèi)諸如抬腿高度要合適、機(jī)身姿態(tài)要平穩(wěn)、關(guān)節(jié)力矩/ 速度/轉(zhuǎn)動(dòng)范圍不能超出限制、關(guān)節(jié)動(dòng)作不要太劇烈、能量 盡可能的小等,獎(jiǎng)勵(lì)項(xiàng)往往會(huì)達(dá)到數(shù)十項(xiàng)之多,一些獎(jiǎng)勵(lì)項(xiàng) 還相互矛盾。如何手動(dòng)調(diào)節(jié)這些項(xiàng)的權(quán)重,以達(dá)到各項(xiàng)獎(jiǎng)勵(lì) 項(xiàng)之間的平衡,最終生成給定的預(yù)期行為實(shí)在是一項(xiàng)繁雜的 工作,一般稱(chēng)作獎(jiǎng)勵(lì)工程。對(duì)于不同的大小/重量/構(gòu)型的機(jī) 器人,實(shí)現(xiàn)這些獎(jiǎng)勵(lì)項(xiàng)的難易程度不同,所需要的權(quán)重大小 也不同,對(duì)于不同類(lèi)型的機(jī)器人,需要重新進(jìn)行一遍獎(jiǎng)勵(lì)工 程,重新進(jìn)行訓(xùn)練以生成類(lèi)似的行為。
盡管獎(jiǎng)勵(lì)工程能夠使得當(dāng)前學(xué)習(xí)范式訓(xùn)練收斂時(shí)生產(chǎn) 相對(duì)合理的行為,但如何引導(dǎo)、調(diào)控這種行為(如不同步 態(tài)/頻率、不同行為)仍然是一個(gè)問(wèn)題。當(dāng)前學(xué)習(xí)范式訓(xùn) 練完成-學(xué)習(xí)完成的特性使得必須在仿真訓(xùn)練過(guò)程中,將這 種預(yù)期行為(不同步態(tài)、爬樓梯等)編碼進(jìn)指令里,作為 Reference,然后在訓(xùn)練過(guò)程中遍歷相關(guān)行為指令,實(shí)際運(yùn) 行時(shí)需要手動(dòng)切換這些指令,以使得機(jī)器人產(chǎn)生對(duì)應(yīng)的動(dòng) 作。這種手動(dòng)指令切換產(chǎn)生不同運(yùn)動(dòng)模式的方式是目前主流 方法,包括一些看似炸裂的市場(chǎng)宣傳視頻,當(dāng)前學(xué)習(xí)范式并 沒(méi)有達(dá)到人們期望的自主,仍需要在仿真交互數(shù)據(jù)中編碼-遍歷-手動(dòng)切換/上層訓(xùn)練一個(gè)策略進(jìn)行切換。在不同地形、 不同速度下的運(yùn)動(dòng)行為形態(tài)自主切換還依賴(lài)于對(duì)相關(guān)機(jī)制的 研究,如能量、步態(tài)穩(wěn)定性理論等,然后將相關(guān)機(jī)制嵌入到 獎(jiǎng)勵(lì)函數(shù)中去,對(duì)控制對(duì)象本身動(dòng)力學(xué)特性的理解仍然起著 基礎(chǔ)作用。
為了腿足機(jī)器人能夠生產(chǎn)類(lèi)似于物理世界人們預(yù)期的 行為,需要在訓(xùn)練框架/過(guò)程中引入更多相關(guān)的數(shù)據(jù),包括: 使用動(dòng)捕系統(tǒng)獲得的仿生對(duì)象真實(shí)數(shù)據(jù);使用基于模型的運(yùn) 控算法規(guī)劃生產(chǎn)的數(shù)據(jù);對(duì)相關(guān)物理量施加真實(shí)(硬)約束 等,即使用約束強(qiáng)化學(xué)習(xí)或者類(lèi)似約束強(qiáng)化學(xué)習(xí)等方法,生 成更符合真實(shí)物理行為的數(shù)據(jù);使用任務(wù)空間動(dòng)作指令(如 抬腿高度、步態(tài)頻率等)等動(dòng)作空間參數(shù)訓(xùn)練生成策略等。 隨著預(yù)期動(dòng)作要求越來(lái)越高,訓(xùn)練框架/策略網(wǎng)絡(luò)結(jié)構(gòu)將會(huì) 融合以上各個(gè)設(shè)計(jì)元素。
(2)受到擾動(dòng)時(shí)的高剛度行為:無(wú)意識(shí)地在任何時(shí)候 最大化獎(jiǎng)勵(lì)函數(shù)
Our key insight is stiff responses to perturbations are due to an agent's incentive to maximize task rewards at all times, even as perturbations are being applied.
- Deep complaint control, ICRA
(3)小范圍內(nèi)的魯棒性
盡管人們可以利用參數(shù)隨機(jī)化(Domain Randomization) 等訓(xùn)練技巧,使得策略不過(guò)分保守的前提下,獲得參數(shù)在小 范圍變化時(shí)的魯棒策略(如質(zhì)量在正負(fù)2kg內(nèi)變化),然而 這種所謂的魯棒性/自適應(yīng)性是有限的,以不顯著改變狀態(tài) 轉(zhuǎn)移特性為上限(如質(zhì)量變化與機(jī)身質(zhì)量相近),如果超過(guò) 這一上限,強(qiáng)化學(xué)習(xí)本身沒(méi)有單獨(dú)的機(jī)制處理這一點(diǎn)(如估 計(jì)-補(bǔ)償機(jī)制或者參數(shù)辨識(shí)-自適應(yīng)機(jī)制)。
(4)無(wú)前饋機(jī)制
當(dāng)前學(xué)習(xí)范式得到的策略屬于狀態(tài)反饋控制策略,即 當(dāng)外界干擾引起的變化導(dǎo)致?tīng)顟B(tài)發(fā)生改變時(shí)(不能改變過(guò) 大),才會(huì)影響到策略輸出,對(duì)于能夠估計(jì)/觀測(cè)到的干 擾,沒(méi)有前饋機(jī)制。
(5)無(wú)安全機(jī)制
將任務(wù)獎(jiǎng)勵(lì)同約束處理一同引入到獎(jiǎng)勵(lì)函數(shù), 不僅使得 獎(jiǎng)勵(lì)函數(shù)項(xiàng)增多(可達(dá)數(shù)十項(xiàng)),而且無(wú)法保證在任何情況 下得到的策略都能滿足這些約束(因?yàn)椴呗允亲畲蠡歇?jiǎng) 勵(lì)項(xiàng)的和),策略可能會(huì)生成不安全的行為。
2 結(jié)論
通過(guò)上述分析,回到最開(kāi)始的問(wèn)題,盡管DRL深度強(qiáng)化 學(xué)習(xí)具有著巨大的應(yīng)用潛力,然而當(dāng)前學(xué)習(xí)范式的原理和性 能特點(diǎn),決定了在應(yīng)用時(shí)仍然需要根據(jù)性能要求和場(chǎng)景進(jìn)行 有針對(duì)性的開(kāi)發(fā),選擇合適的訓(xùn)練框架和策略結(jié)構(gòu)。當(dāng)前學(xué) 習(xí)范式的DRL只是提供了一種解決問(wèn)題的思路,這種思路解 決問(wèn)題的原理仍然存在一定的局限性(見(jiàn)上述分析),對(duì)于 實(shí)際應(yīng)用來(lái)說(shuō),了解這種思路的局限性和性能邊界,選擇合 適的技術(shù)方案,并結(jié)合基于模型的控制方法相關(guān)思路進(jìn)行完 善,是一種應(yīng)該采取的態(tài)度。(待續(xù))
中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(connectcrack.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

掃碼關(guān)注小程序
時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)


- 1資訊

填寫(xiě)郵件地址,訂閱更多資訊:
撥打電話咨詢(xún):13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動(dòng)控制
- 伺服系統(tǒng)
- 機(jī)器視覺(jué)
- 機(jī)械傳動(dòng)
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜