近日,自動化學院楊曉飛副教授“自主智能無人系統”團隊在未來混合交通體系下的無人艇智能航行和安全避碰研究方向取得新進展。團隊研究成果“A Balanced Collision Avoidance Algorithm for USVs in Complex Environment: A Deep Reinforcement Learning Approach”和“Design and Field Test of Collision Avoidance Method With Prediction for USVs: A Deep Deterministic Policy Gradient Approach”先后在人工智能和智能交通領域的國際頂級期刊《IEEE Internet of Things Journal》和《IEEE Transactions on Intelligent Transportation Systems》上發表。兩篇論文的第一作者均為自動化學院2022級碩士研究生婁猛猛,楊曉飛副教授為論文唯一通訊作者,江蘇科技大學為第一完成單位。論文的共同作者還包括自動化學院2022級碩士研究生胡家寶、江蘇科技大學朱志宇教授、安徽工業大學沈浩教授、南京理工大學向崢嶸教授和美國南卡羅來納大學張斌教授。
隨著智能技術的發展,未來將形成有人和無人船舶共存的混合交通體系。在該體系中,無人船舶如何與有人船舶和諧共存,并按照人類的航行規則進行安全航行是值得研究和探討的問題。因此,實時安全避碰對于復雜環境中的水面無人艇(USV)至關重要。針對傳統方法難以保證控制決策安全性和實用性的平衡問題,團隊提出了一種基于互補原理的兩級激勵獎勵機制,并構建了基于深度強化學習的安全避碰算法框架。同時,為了解決深度確定性策略梯度(DDPG)的稀疏獎勵問題,團隊參考動態窗口算法(DWA)的軌跡評價函數,構建了主要獎勵策略,并基于速度障礙(VO)設計次級激勵獎勵,以篩除潛在的碰撞風險。在提高訓練效率方面,團隊利用電子海圖(EC)和Unity3D構建了一個沉浸式仿真平臺,并通過該平臺開展算法仿真和驗證。此外,通過現場實驗測試了算法在多種遭遇場景下的有效性。


此外,為了解決當前基于深度強化學習(DRL)的無人艇避碰研究大多依賴固定數量障礙物假設、忽視碰撞預測重要性的問題,團隊提出了一種基于DDPG的新型“預測-決策”避碰模型。該模型首先設計和構造了輻射形狀態空間,使得DDPG方法能夠用于具有隨機障礙物的時變場景,同時將速度障礙(VO)與狀態空間相結合以實現碰撞預測,使用獎勵塑形技術設計獎勵函數,以提高安全性和訓練效率。虛擬仿真實驗和現場測試驗證了該算法的有效性,顯示出所提方法不僅使無人艇在未知環境中能夠安全避碰,而且具有較強的泛化能力。


《IEEE Transactions on Intelligent Transportation Systems》是智能交通領域的國際頂級期刊(影響因子7.9),《IEEE Internet of Things Journal》是人工智能與物聯網領域的國際頂級期刊(影響因子8.2),兩者均屬于中科院SCI一區TOP期刊。
論文鏈接:
https://ieeexplore.ieee.org/document/10715732
https://ieeexplore.ieee.org/document/10733753
(撰稿:楊曉飛 初審:羅文 二審:夏志平 終審:張強 編輯:羅文)

