大規模言語モデル(Large Language Model, LLM)の新たな推論パラダイムとしてReasoningが注目されている.Reasoningは中間段階の推論ステップをテキストとして逐次生成させる手法であり,数学やコード生成等の複雑なタスクにおける性能を大きく向上させることが示されている.また,Reasoningによって生成されるChain-of-Thought(CoT)は,モデルがどのような経路で解答に到達したかを観察し,開発者やユーザの意図通りにモデルが動作しているか確認するためのインタフェースとして利用されている.
ところが近年の研究では,生成されたCoTとLLMの実際の推論過程が必ずしも忠実に対応していないことが指摘されている.すなわち,CoTはモデルの真の推論過程ではなく,最終的な出力を正当化するための後付けの説明ともなりうる.その結果,意図しないふるまいを防ぐためにCoTを監視しても,その兆候を十分に検出できない可能性があり,CoTを用いたLLM制御における重大な懸念となっている.
本研究ではこのギャップを解消するため,モデルの推論過程に直接介入することで,内部の推論と外部に出力されるCoTとの対応を高める手法を提案する.これにより,LLMのモニタリングおよび制御のための信頼性の高いインタフェースとしてCoTを役割づけることを目指す.

| 氏名 | コース | 研究室 | 役職/学年 |
|---|---|---|---|
| 若井雄紀 | 知能情報学コース | 鹿島研究室 | 博士1回生 |
| 森村哲郎 | その他の専攻・大学 | CyberAgent AI Lab | その他: その他 |
| 鹿島久嗣 | 知能情報学コース | 鹿島研究室 | 教授 |