ドライバは高速道路よりも住宅地を走行する方が,事故や衝突の危険性が高いとよく言われています.先進運転支援システムは,運転行動モデリング(DBM)を利用し,適切な行動を計画することによって,交通事故防止の目的を果たします.
より少ない熟練者の行動データで異なる環境での運転行動をモデル化するため,逆強化学習を用いて,熟練者の行動データからマルコフ決定過程(MDP)の報酬関数を学習しました [1].しかし,複数のサブタスクからなる複雑なタスクの場合,フェーズごとに行動戦略が異なるため,単一のMDPに基づくアプローチではうまく機能しないことが判明されています.既存の研究では,逐次型MDPを用いて,住宅街でより良い経路計画結果を得ることが提案されています [2].しかし,この研究は離散空間での議論に止まり,より一般的な走行環境に応用する際に,状態や行動の数が制限されるという問題があります.
本プロジェクトでは,RRTを経路計画として用い,連続空間において離散空間と同様の逐次的な行動計画を行います.また,異なるタスク分割パターンの下で,各タスクフェーズの最終状態を固定することの重要性を議論します.報酬学習を評価するため,熟練ドライバが信号のない交差点を通過する際に適切な停止動作を行うデータを取得しました.結果,本研究で提案する逐次固定最終時刻における状態量の制約を考慮した非ホロノミックRRT*が,異なるタスクセグメンテーションの下,最も良い性能とロバスト性を持つことが示されました.
—– 関連論文 —–
[1] Masamichi Shimosaka, Takuhiro Kaneko, Kentaro Nishi. Modeling risk anticipation and defensive driving on residential roads with inverse reinforcement learning. In Proceedings of the 17th International IEEE Conference on Intelligent Transportation Systems (ITSC2014), pp.1694-1700, 2014.
—– 発表論文 —–
Shaoyu Yang and Masamichi Shimosaka.
Sequential 2D Continuous Kinodynamic RRT for Driving Behavior at Un-signalized Intersections with Stop Lines.
第40回日本ロボット学会学術講演会予稿集, 東京都, 9 2022.