JAIST Repository >
i. 北陸先端科学技術大学院大学(JAIST) >
i20. 学位論文 >
M-IS. 修士(情報科学) >
M-IS. 2024年度(R06) >
このアイテムの引用には次の識別子を使用してください:
http://hdl.handle.net/10119/19840
|
タイトル: | 大規模言語モデルを報酬計算に用いたキャラクタらしいNPCの強化学習 |
著者: | 徳永, 遼太 |
著者(別表記): | とくなが, りょうた |
キーワード: | 人間らしさ キャラクタらしさ 強化学習 大規模言語モデル Human Like Character Like Reinforcement Learning LLM |
発行日: | Mar-2025 |
抄録: | 近年,人工知能(AI)技術は急速に発展し,ゲームを含むさまざまな分野で研究と活用が進んでいる.
特に,ChatGPTをはじめとする大規模言語モデル(LLM)は高度でまた応用範囲が広く,注目されている.
ゲームへのAI技術の活用の一例として,人間プレイヤが操作しないキャラクタ(NPC)の行動制御が挙げられる.
NPCは敵,味方,ゲーム世界の住人として機能し,ゲームの面白さを支える重要な要素の一つである.
古くは主に開発者が設計したルールベース方式で実装されてきたが,近年では教師あり学習,強化学習,木探索といったAI技術の導入も活発に行われている.
AI技術が未熟な時代には,NPCの挙動に対する不満の多くは「適切な行動をしない,弱い」という問題に起因していた.
しかし,囲碁や麻雀,StarCraftなど多くのゲームでNPC(AIプレイヤ)の技量が人間を上回るに至ると,また別の問題が注目されるようになった.AIによるNPCは,強すぎたり,人間からすると不自然に見える行動を取ったりすることがあり,これがプレイヤのゲーム体験を損ねることがある.
そこで,強さよりも,人間らしさを重視したNPCの作成方法が重点的に研究されるようになってきている.
例えばMaiaはチェスのアマチュアプレイヤの棋譜を大量に集めて教師あり学習を行ったモデルであり,これが木探索や強化学習で作ったプレイヤよりも人間の着手を予想しやすいことが示された.
あるいは,藤井らは,人間の持つ「認知のゆらぎ」「認知から行動までの遅れ」「操作疲れ」といった生物学的な制約を強化学習エージェントに導入することで,人間らしく見えるスーパーマリオのプレイヤを作成している.
ロールプレイングゲーム(RPG)など独自の世界観を持つストーリー性の高いゲームでは,各NPCが単に一般の人間らしくふるまうだけでなく,“そのキャラクタらしく”ふるまうことが求められる.同じ能力を持った戦士であっても,臆病な戦士,勇敢な戦士,目立ちたがりの戦士,実は仲間に死んで欲しいと思っている戦士など,さまざまなキャラクタ付けが行われている場合があり,それぞれに求められる行動は異なる.
昨今のゲームには非常に多くのNPCが登場し,既定のマップやイベントのみならず,ランダムに生成された状況においても適切なNPCの振る舞いが求められることもある.このような場合に,キャラクタの行動をルールベースで実装することは非現実的であり,また状況がさまざまであることから,訓練データを大量に集めることも難しい.
そこで,強化学習を用いて,キャラクタらしい振る舞いを行った場合に高い報酬を与えるようなアプローチが試みられている.
しかし,結局「どんな振る舞いをしたらキャラクタらしいのか」はデザイナが設定してやる必要があり,問題が複雑になるほどそれは簡単ではないことが分かっている.
そこで本研究では,LLMが「与えられた世界観や状況を理解し,常識的に好ましい状態や行動を判断する能力」を持っていると仮定し,これを強化学習の報酬の計算に援用するという着想に至った.
簡単にいうと,LLMに「こういう世界観で,キャラクタはこういう設定です.こういう状況です.エージェントはこういう行動系列をとって,結果的にこうなりました.この行動系列は,このキャラクタにふさわしいですか?理由付きで点数で評価してください」というような指示を出し,得られた評価値を,強化学習のエピソード単位の報酬として与えて学習させるという枠組みを提案した.
実験1は,勇者が王様に謁見しているシーンで,近衛兵がそれを横切らずに目的地まで適切なルートで移動することができるかという課題を設定した.我々が想定していた必要十分な迂回ルートを学習してくれることもあり,その際の評価理由は期待した通りであった.一方で,試行によっては,謁見室内を無駄に歩き回るようなルートがLLMによって高く評価され,それが学習されてしまうこともあった.これは,高い評価を得たエピソードをサンプルとしてLLMに与えるという我々の工夫が起こした副作用であると考えている.
実験2は,勇者と姫と僧侶のパーティが,スライムと戦うというシーンで,攻撃と回復を行える僧侶の行動を学習する課題を設定した.僧侶には,「姫の身の安全を最優先する」「血の気が多くて戦いを好む」「非常に慎重かつ臆病な性格」という3つの異なるキャラクタ付けを試した.結果として,それぞれ,自分が傷ついても姫を助ける,姫や勇者が傷ついてもスライムを攻撃する,および回復しかしない,といった,キャラクタ付けにふさわしい挙動を確認することができた.
本研究の実験を通して,LLMには一定の「常識的に好ましい状態や行動を判断する能力」が認められたが,指示の仕方一つで何を好ましいとするかは大きく変わることが確認された.これを改善するための工夫が今後は必要になると考える. |
記述: | Supervisor: 池田 心 先端科学技術研究科 修士 (情報科学) |
タイトル(英語): | Using Large Language Models for Reward Calculation in Reinforcement Learning to Create Character-Like NPCs |
著者(英語): | Tokunaga, Ryota |
言語: | jpn |
URI: | http://hdl.handle.net/10119/19840 |
出現コレクション: | M-IS. 2024年度(R06) (Jun.2024 - Mar.2025)
|
このアイテムのファイル:
ファイル |
記述 |
サイズ | 形式 |
abstract.pdf | 要旨 | 17Kb | Adobe PDF | 見る/開く | paper.pdf | 本文 | 792Kb | Adobe PDF | 見る/開く |
|
当システムに保管されているアイテムはすべて著作権により保護されています。
|