高次元連続空間における高速・安定な運転行動予測
一方で,安定した解を探索する方法として,空間全体を覆う木を生成するRapidly exploring Random Tree (RRT)が挙げられますが,自動車モデルの表現に必要な高次元空間を網羅するには多くの計算コストを要します.さらに,計算コストを抑えつつ非ホロノミックな運動系を扱えるようRRTを拡張した研究としてテンプレートベースRRT (Ma et al. ITSC2014) がありますが,RRTが抱える探索の非効率性の問題,として,1)単一木の網羅性の低さ,2)大量の枝・葉を有するRRTにおける報酬和の更新速度の遅さ,が残されています.
その解決のために,本研究では.従来のテンプレートベースRRTに枝刈りと木の複数並列複数生成を組み合わせた,並列逐次枝刈り型RRTを提案しました.必要のない部分を枝刈りすることで,集中して報酬の見込みの高い場所を探索することが可能になります.
また,単体の木を生成していた既存のRRTとは異なり,小さい木を複数並列生成する方法により,コストを抑制しつつ効率的に空間を網羅することが期待できます.
これら二つのプロセスにより,高次元空間において高速性と安定性を両立した運転行動予測を実現します.性能比較実験では,幹線道路と交差点を想定したタスクにおいて,提案手法が既存手法よりも高速性と安定性が向上していることを実証しました.
運転行動モデリングのための高次元連続状態空間における逆強化学習
しかし,最大エントロピーIRLでは,分配関数の計算が必要であり,その計算コストは空間の次元数に対して指数的に増加するため,高次元連続空間での計算が困難です.運転行動予測では,位置や速度のみではなく車体角度や角速度など,多くの状態変数を扱う必要があるため,空間が高次元となる傾向があります.よって,最大エントロピーIRLはそのような高次元空間を扱えず,自動車モデルの詳細な表現ができません.また,最大エントロピーIRLを近似し,高次元空間への適用を試みる研究も行われていますが,安定性と高速性と両立した学習には,効率的なパスプランニングと適切なパラメータ更新の組み合わせが求められ,既存の方法ではそれらを成し遂げられてはいません.
本研究では,パスプランニング手法として,先述した並列逐次枝刈り型RRTを適用し,効率的に報酬の高いパスの探索を行います.また,得られた木を元にパスの尤度を独自に定義し,それらを用いてパスをサンプリングすることで,RRTをベースとした重点サンプリングによるパラメータ更新を定式化しました.これら二つの組み合わせにより,最大エントロピーIRLを精度よく近似した,高速・安定な学習モデルを提案します.
また,車線変更と交差点での右左折タスクを用いた性能評価実験を行い,提案手法が既存のIRLモデルと比較して,高速かつ安定して教師データの行動規範が復元可能なことを確認しました.
Publications
逐次枝刈り型RRTの並列化による高速かつロバストな運転行動予測
細馬 慎平, 須ヶ﨑 聖人, 竹中 一仁, 平野 大輔, 孫 理天, 下坂 正倫
第38回 日本ロボット学会学術講演会 予稿集, オンライン開催, 10 2020
RRT-based maximum entropy inverse reinforcement learning for robust and efficient driving behavior prediction.
Shinpei Hosoma, Masato Sugasaki, Hiroaki Arie, and Masamichi Shimosaka.
2022 IEEE Intelligent Vehicles Symposium (IV 2022), pp. 1353-1359, Aachen, Germany, 6 2022.