構造的言語処理による大規模ウェブページの自動分類


概要

本研究では、検索エンジンTSUBAKIを使って検索されたウェブページを、その内容に応じて分類し、分類されたページの集合に対して、集合の内容を端的に表すラベルを付与するクラスタリングシステムの構築を目指す。既存の検索エンジンは、検索結果としてページのタイトルやURLなどをリスト形式でユーザへ提示するだけであるため、ユーザは検索結果の全体像を把握することが難しい。一方で、本システムのユーザは、ラベル付けされたページの集合を見ることで、検索結果全体を容易に把握することが可能になる。



URL

http://tsubaki.ixnlp.nii.ac.jp


産業界への展開例・適用分野

本システムのユーザは、普通であれば閲覧されないような検索順位の低いページであっても、出力されたラベルに従ってページ集合間を移動することで容易に発見することが可能である。また、ラベル全体を俯瞰することで、ユーザ自身も気づいていないクエリに対する新しい知見を得ることも可能である。これらの特徴は新しい広告配信サービス等への展開が期待できる。

展示責任者

氏名: 新里 圭司
所属: 情報学研究科 知能情報学専攻 知能メディア講座 言語メディア分野(黒橋研)
役職: 特任助教
PAGE TOP