構造的言語処理による大規模ウェブページの組織化
Large-scale Web Page Organization Using Structural Natural Language Processing
概要
本研究では,開放型検索エンジン基盤 TSUBAKI を用いて検索されたウェブページを,その内容に応じて組織化するクラスタリングシステムの構築を目指す.既存の検索エンジンは,検索されたページをリスト形式で提示するのみであるため,検索結果に含まれる情報を俯瞰することが難しい.提案システムでは,検索結果のクラスタリング,クラスタに対するラベル付け・グルーピングなどの組織化を行うことで,ユーザの情報アクセス・情報収集を支援する.
![]() |
---|
産業界への展開例・適用分野
一般に検索エンジンが返す結果は組織化されておらず,検索結果に含まれる情報は雑然としている.提案システムは検索結果からクエリに関する情報を集約し,これを組織化して出力する.組織化された情報はそのままテキストマイニングに展開することができ,例えば商品等の評判分析に利用することも可能である.また提案システムは特定の分野を対象としていないため,情報検索を必要とするすべてのユーザに対して,効率的な情報アクセス・情報収集の手段を提供する.
研究者
氏名 | 専攻 | 研究室 | 役職(学年) |
---|---|---|---|
原島 純 | 知能情報学 | 黒橋研究室 | 修士2回生 |
柴田 知秀 | 知能情報学 | 黒橋研究室 | 特任助教 |
新里 圭司 | 知能情報学 | 黒橋研究室 | 特任助教 |
黒橋 禎夫 | 知能情報学 | 黒橋研究室 | 教授 |