↑ クリックでデモ!
↑ クリックで動画再生!
視覚的で対話的な論文探索システム
論文探索システムは,arXiv のデータベースと AI 技術を活用した論文探しをサポートする Web アプリケーションです.2つのマップと3種類の可視化方法で新しい論文探索体験を提供します.
論文探し/論文サーベイは研究者や大学院生にとって自分の研究の手がかりを探したり,立ち位置やアピールポイントを確立するために必要不可欠である.
そのような論文探しは4つの点において難しい.まず,そもそも情報を検索するのに,自分の研究と関連するキーワードや研究分野を知っておかなければいけない.次に,英語で出てきた論文の要点を短時間で把握しなければいけない.そして,一つの論文だけでなく複数の論文を網羅的に把握し,研究の世界観を過不足なく構築する必要がある.最後に,日々投稿されている最新の論文の情報を随時取り入れなければいけない.このように論文探しには難点が多く,これらの難点は若手の研究者や駆け出しの研究者ほど障壁が高く,論文サーベイは膨大な時間がかかる.
論文サーベイは最終的に自分の論文と一番関わる論文(キー論文)を見つけることが目標になるが,手あたり次第論文を読むだけでは途方もない時間がかかり見つけることはできない.読んだ論文を様々なレベルで抽象化し,抽出した研究分野・キーアイディア・キーワード を吟味して,自分の研究・研究分野との関係性を把握し,知識を蓄え,仮説を立て,試行錯誤しながら論文を 探索 する必要がある.
論文探索システムは,検索してヒットした論文の文章データ(概要)を生成モデルでモデリングし,論文探索に必要となるあらゆる情報をユーザーに提供します.
ユーザーは論文マップと単語マップの2つのマップと,そのマップに彩色する3種類の可視化法を用途に合わせて選択することで論文に関する様々な解像度の知識を取得します.
論文マップでは似たような論文は近くの位置に配置されます.(例えば,マップ左上の49, 40の論文は近くにあるので,似たような論文ということがわかります.)同様に,単語マップでも似たような単語は近くの位置に配置されます.マップをみるだけでそれぞれの類似度を一目で把握することができます.(従来の検索エンジンでは1次元的に配置されるためスクロール・ページの切り替えをする必要がありました.)
類似度の詳細をさらに知りたいときは,U-matrix表示に切り替えることで類似度の情報を詳細に表示できます.この彩色は一種の「海図」と思ってもらえればわかりやすいです.深い青は深海を表しており,この「溝」が隔だれた境界はマップ上で距離が近くても,データ的には類似度は低いことを表しています.
CCP(Conditional Component Plane)表示では,一つの要素に着目して解析したいときに使える描画法です.
例えば,着目したい論文(例: 論文ID 11 )を論文マップ上でクリックすると,その論文でよく出てくる単語を単語マップ上に表示できます.また,ページ下部のほうで着目した論文の概要を読むことができます.
同様に,着目したい単語(例:regression)を単語マップ上でクリックすると,その単語がよく出てくる論文を論文マップ上に表示できます.また,ページ下部で着目した単語を多く使っていた論文の概要を読むことができます.
クラスタ表示では,論文の分野情報について知りたいときに使える描画法です.論文と単語の関係をクラスタリング(トピック分解)して,論文と単語の関係をある程度まとまった解像度で見ることができます.またページ下部で着目した単語論文の概要を読むことができます.
- 単語マップによりキーワード,クラスタによりジャンルを把握することができる.
- 着目した論文で出でくる単語を視覚的に把握することで,論文概要の大枠を把握できる.
- ひと目で類似する論文,類似しない論文を把握できることで自分の研究の立ち位置の確立を手助けする.
- 年度を絞って検索できるため,最新の情報も簡単に取り入れられる.
- 論文の被引用関係情報を取り入れてよりリッチな情報を提供する.
- 著者情報も対話的解析ができるようにする.
- 単語マップ上で複数の単語を選択できるようにし,AND・OR検索を可能にする.
- 検索履歴のログを取れるようにして,検索の補完を効かせたり・検索keywordのリコメンドをおこなう.
- 本システムを使うことにより情報検索の時間が削減できることを定量的に示す.
- 表示するだけでなく,ユーザーが情報を探索するのを補助する機能
- 単語マップを見ていて気になった単語を検索キーワードを追加できます.
- 気になった論文のアブストラクトは本サービスの中で閲覧することができます.
- 情報が煩雑になるところをマップの色合いや見やすさを左右するマップの色合い
- マップの精度を左右するデータの前処理
- 非線形テンソル分解: Tensor SOM
- テンソルデータからドメインごとの要素に関する低次元の表現と潜在空間から観測空間への写像を獲得
- トピック分解: NMF
- 写像行列に対して非負値の制約をかけて行列分解
- PC・Webブラウザ
-
https://github.com/furukawa-laboratory/ExploreSearchSystem/blob/main/jax_tsom.py
- モデル学習時間の削減のためjaxモジュールの適用
-
https://github.com/furukawa-laboratory/ExploreSearchSystem/blob/main/webapp/event_handler.py
- マップを使って様々な対話的な解析ができるようにイベントを設定
- tensor SOM and tensor GTM: nonlinear tensor analysis by topographic mappings
- 生成モデルとしてTensor SOMを採用
- Simultaneous Visualization of Documents, Words and Topics by Tensor Self-Organizing Map and Non-negative Matrix Factorization
- クラスタ表示(トピック分解)を採用
-
9/26~10/2 プロト開発
- 方針:一般の情報検索のサポートを支援するため,検索エンジンででてくる結果を二次元で表示.
- プロト開発リポジトリ
-
10/16~ 本開発
- 方針:論文検索に特化.それに伴いデータ学習の問題設定を変更し,学習モデルを変更・描画の追加.
- 本開発リポジトリ