近年,都市景観画像を分析し,その印象を数値化する研究が注目を集めています.都市景観が与える印象は,地域の魅力やブランド価値を直接反映するため,都市開発や土地ブランディングにおいて重要な指標となります.この分野の研究が発展することで,来訪者の誘致や都市デザインの改善に寄与することが期待されています.
既存手法では,景観画像のシーン全体をひとつの物体と仮定する物体認識ベースの数値予測から,シーン内の個々の物体を検出し,検出領域での画像特徴をもとに数値を予測する手法へと進展してきました.この流れは,シーン全体をベースとする手法では,物体のクラスや局所的な特徴を捉えることが難しく,印象の数値予測の精度が限定的であったことに起因しています.しかし,物体検出に特化した画像特徴では,同一クラスの物体の特徴を区別できる保証がなく,景観の印象評価に直接関連しているとは言い切れません.例えば,既存手法では,物体検出によって車や建物といったシーン構成要素のクラスや画像特徴量を考慮しますが,汚れのある古い建物と清潔な建物のように,同クラスの物体における形容的な属性の違いを十分に反映できているとは言えません.
そこで本研究では,シーンの視覚的特徴に加えて,LLM(Large Language Model)によって生成された形容に関する特徴を考慮し,より頑健な印象評価の数値予測を行う手法を提案します.LLMを活用することで,印象評価の高精度化に寄与する表現を効率的に探索できます.これは,LLMを用いることで,人がシーンの形容に関する特徴を記述する場合と比べて,プロンプトの調整のみで記述を自動生成できること,さらにテキストデータの埋め込みが容易であることによります.このように,シーンの視覚的特徴に加え,シーンの形容に関する特徴を明示的にモデルに与えることで,既存手法の物体検出に特化した画像特徴の限界を補い,より精緻な印象評価の数値予測を実現します.
クラウドソーシングで得た2,305枚の昼間の都市景観画像の印象評価データセットを用いて,既存手法と提案手法の予測性能を比較しました.その結果,提案手法が既存手法を上回る予測性能を示し,より精度の高い印象評価が可能であることを確認しました.
Publications
井手 海翔,安納 爽響,坪内 孝太,下坂 正倫
LLMによるシーン中の物体の形容記述を用いた景観画像の印象予測
情報処理学会研究報告 第84回UBI研究発表会, 兵庫県淡路市, 11 2024.