近年,人為的ミスに起因する交通事故の抑制につながる自動運転システムが注目されています.自動運転の鍵となるのは,ドライバーの意思決定を自動化することです.特に,複雑な運転行動を人が書き下したルールで定義することは困難であるため,データから最適な行動規範をモデリングできる逆強化学習への期待が高まっています.
これまでの取り組みでは,安全な行動データ(正例)と危険な行動データ(負例)を用いて,交通事故を避けるための意思決定を模倣することを目的とした逆強化学習手法が提案されています.しかしながら,運転行動に限れば,危険な行動データの中の行動が常に危険とは限りません.例えば,障害物にぶつかる行動は危険ですが,それに至るまでの一連の行動の全ては必ずしも危険ではありません.すなわち,行動が常に安全な正例と行動のごく一部の時間のみが危険な負例の間にコンフリクトが存在し,このコンフリクトは学習の収束を遅める問題を引き起こします.
本プロジェクトでは,この課題に取り組み,危険行動のごく一部の時間のみを負例として扱い,大半は正例として扱うべきであることに着目し,危険行動の時間的局所性に着目した負例導入逆強化学習を提案しました.この提案手法では,危険行動の時間的パターンを時系列正負ラベルとして捉え,これを従来の逆強化学習の枠組みに組み込みました.
障害物回避シナリオにおける実験により,提案手法が既存の方法よりも正確に障害物を回避できることが確認されました.また,提案手法による正例と負例間のコンフリクトを解消することにより,学習の収束が速くなるだけでなく,正例と負例の比率によらず安定して最適報酬が得られることも示しました.