LLMを方策とした会話に基づくマルチエージェント強化学習
Conversation-based Multi-agent Reinforcement Learning with LLM as a Policy

概要

マルチエージェントシステムは災害救助や荷物の配達におけるドローン制御など, 様々な分野で利用されているが, エージェントを学習させる場合, 環境の複雑さから非常に多くの試行錯誤が必要で, サンプル効率が悪いという課題がある. そこで近年では, LLM を方策としたエージェントの制御についての研究が行われており, 非常に少ない回数の学習で環境への適応を達成している. しかし問題によっては, エージェント同士の協調や, 細かい制御が難しく, 適切な報酬設計や多くの学習が必要となる場合がある. そこで, 本研究では LLM を方策としたエージェントが, より効率よく学習をする方法を提案する. 具体的には, エージェント間通信について, 従来の双方向でのメッセージ交換から, 単方向での階層型, およびメッセージを交互に複数回送り合う対話型に変更することで, メッセージ内容の衝突や矛盾を解消する. Reflexionによる学習とBabyAI環境を用いたシミュレーション実験により, エージェントの行動, メッセージの内容などを分析し, 手法の有用性を確認する.

産業界への展開例・適用分野

複数のドローンや自動運転車の制御といったマルチエージェントシステムの開発や, インタラクティブな環境で課題を達成する汎用的なエージェントの開発への適用が期待される.

研究者

氏名 コース 研究室 役職/学年
浅間 慶二郎 社会情報学コース 伊藤研究室 修士2回生
伊藤 孝行 社会情報学コース 伊藤研究室 教授
丁 世堯 社会情報学コース 伊藤研究室 助教