LLMを用いた議論の自動評価
Automatic Evaluation of Discussion Quality using Large Language Model

概要

民主的な意思決定を目指し,対面・非対面問わず多くの場で議論が行われている.しかし,「議論の良さ」を明確に評価することは難しい.議論の質を定量的に評価する指標としてDiscourse Quality Index (DQI)が提案されている.しかし拡張DQIによる議論の評価は以下のような2つの問題がある.(1) 拡張DQIは議題ごとに評価ラベルを作成する必要があり,現状では福島原発汚染土壌処理問題の議論以外に適用することができない.(2)人間の評定者が手作業で分類を行う必要があるため負担が大きい.そこで本研究では,より広い範囲の議題に対応可能なDQIラベルを新たに作成した上で,LLMを用いて自動分類を行うことで,DQIに基づく議論の自動評価の実現を目指す.本研究では名古屋市民討議を評価対象として,アイデアベースの市民討議に広く適用可能なDQI(一般化DQI)を開発した.本指標に基づき人間の第三者がラベルを付与したデータセットを作成し,カッパ係数などを用いて提案指標が評価基準として一貫性があることを示す.そしてGPT-4を用いて提案したDQIラベルの自動分類を行い,提案手法が人間の評定者の代替として一定の有用性を持つことを示す.

産業界への展開例・適用分野

本研究を用いることで,DQIが想定する公共的なテーマの議論を自動評価することができる.具体的には市民ワークショップなどの議論に適用できる.他の議論テーマにおいても,本研究のアプローチと同様に対応するラベルを作成することで,自動評価の実現が期待される.

研究者

氏名 コース 研究室 役職/学年
森 一仁 社会情報学コース 伊藤研究室 修士2回生
丁 世堯 社会情報学コース 伊藤研究室 助教
大沼 進 その他の専攻・大学 北海道大学 大沼研究室 教授
相馬 ゆめ その他の専攻・大学 北海道大学 大沼研究室 博士1回生
伊藤 孝行 社会情報学コース 伊藤研究室 教授