2024年11月18-19日に,情報処理学会UBI研究会第84回研究発表会が, 淡路夢舞台国際会議場にて開催されます.我々は本研究会にて,以下の論文の発表を行います.
LLMによるシーン中の物体の形容記述を用いた景観画像の印象予測
近年,都市景観画像から印象を数値評価することが,都市開発や土地ブランディングに役立つとされ,研究が進んでいます.その中でも,シーン全体を単一の物体とみなす既存手法がよく使われる一方で, シーン内の多様な構成要素を十分に把握できないため,予測性能が限定的という課題があります.例えば,ゴミや落書きのような印象に強く影響する要素を含む景観画像において,要素の検出が困難なため予測精度が低下すると考えられます.
そのため,印象評価手法は,シーン内の個々の物体を検出し,検出領域での画像特徴から印象の数値を予測する手法へと進展しますが,以下の問題点が残っています.物体検出に特化した画像特徴は,同一クラスの物体の属性の差異の考慮が困難なため,景観の印象評価に直接関連性があるとは言いがたいという課題があります.その例として, 高級車と軽自動車,古びたレストランと高級レストランなどが挙げられます.
そこで本研究では,シーンの視覚的特徴に加えて,形容に関する特徴を考慮し,印象評価をより正確に数値予測する手法を提案します.形容に関する特徴とは,「絡み合った電線」のような検出要素の状況,「画像の半分を占める建物の並び」のような構図,さらに,「人々の生活を感じさせる都市の裏路地」のようなシーン全体の文脈的・背景的特徴のことを指します.
しかし,印象予測に有効な形容に関する記述が自明でないため,表現の模索を効率的に行う必要があります.そのため,本研究では大規模言語モデル(Large Language Model; LLM)を活用しました.これにより,人がシーンの形容に関する特徴を記述する場合と比べて,プロンプトの調節のみで記述を生成することを可能にします.
以上のような,シーンの視覚的な特徴に加え,シーンの形容に関する記述を明示的にモデルに与えることで,人々の印象評価過程をより正確に再現可能にしました.
発表情報 (詳細プログラム)
———
2024年11月18日 13:00–14:20 セッション2:AI
LLMによるシーン中の物体の形容記述を用いた景観画像の印象予測
井手海翔, 安納爽響, 坪内孝太(LINEヤフー株式会社), 下坂正倫
———