引用-被引用から自動で重要な関連論文を探し出すソフト

院生生活も3年目になると論文検索にも慣れて来た。しかし、関係する論文はたくさんあるので、それら全部に目を通すのは無茶な要求である。ある程度慣れてくれば重要な論文を簡単に探し出せるようになるし*1、ネットを使わない人力検索*2も有用だ。だけど、どんなに頑張って検索しても見落としというものは生じるし*3、複数の分野にまたがった仕事や先人がしていないような仕事をする場合には人力検索が無力なことがある。
以下、論文検索について思っている/やりたいことをメモ。
ここでやりたいと思うのは、引用-被引用関係を上手く可視化し、重要な論文を簡単に探し出す、ないしは未だにやられていない分野を探し出す、ないしはまさに開拓されるのを今か今かと待っている分野を探し出すということである。単純に引用-被引用関係を可視化するだけのサービスならば既に存在する*4。ただ、全部可視化してしまうと、いらない情報まで見えてしまって、大事な情報が見えなくなってしまう。そのため、論文の引用関係のネットワークのノードを引用数に比例*5して重みを付け、被引用数に応じてネットワークの点の大きさに重みをつける。そして、適当に閾値を決めて、ある重み以下の点とノードを全てカットする。
このようにグラフを生成出来る様になったとする。例えばある論文(点)を指定し、閾値を決めるような距離をパラメータを与えると、その論文の背景となるような重要論文や、その論文を背景とするような、後続の研究を待っている論文を探し出すことが出来ると考えられる。また、登録されているkeywordsや、アブストから自動抽出したkeywordsを用いて、そのkeywordsに関係するようなグラフを表示するということも出来ると思う。異なるkeywordsを用いて条件を付けて絞り込むと、全く違う見え方が出てくると思う。
一つ大事なのは、この可視化ができるようになったからといって、論文探しのテクニックや人力検索が無用になるわけではなく、可視化は三つ目の探索方法として提案されるようなものでしかないということ。ただ、可視化の重み付けの仕方をもっと上手くするのは多分出来て、引用-被引用関係だけではなく、「それまでに自分がどのような論文を読んだか」「どの論文を重要だと思ったか」、のような情報も記憶して重みの付け方を学習するということも出来ると考えられる。「どの論文を重要だと思ったか」というのはAmazonで☆を付けるようなもので、このデータを大量の人から集めることが出来れば「この論文を読んだ人はこんな論文も読んでいます」「おすすめ論文はこちら」のようなことが出来るはず*6。また、個人個人の重み付きグラフを照らし合わせれば、「(専門分野だけを見れば)この人と共同研究するのは良いかもしれません*7」のようなこともデータから知ることが出来るかもしれない。

*1:Google scholarとか、APSの引用-被引用一覧。

*2:つまり、知り合いに「重要そうな論文無い?」と聴いて回る。

*3:確証バイアスがかかってしまうとか。これはベテランであればあるほどありそう。

*4:具体的にどこにあるのかを忘れてしまったが。

*5:本当に比例というわけではなく単調増加程度の意味。

*6:ここでは関係に注目したからAmazon的な役立て方が連想されるけど、タグを付けるようなニコニコ動画的な役立て方も容易に思いつく(Tキチと話しているとむしろこっちの案が出て来て面白い。)。

*7:似た専門知識を持っているとか、全然違う専門の背景を持ってはいるけど共通の興味を持っている、のような判定方法で。もちろん、それ以上に共同研究するんだったら性格が合うかということの方が大事かもしれんけど。