~広報誌「せんたん」から~

[2019年1月号]

文章や図表を自動的に解析

 人は言葉によって知識を獲得し、コミュニケーションをとっている。その言語を理解するためには、個々の単語の意味や文を解析し、蓄積された知識と照らし合わせて総合的に判断する必要がある。人間のこうした高度な営みを計算機に肩代わりさせる研究が進み、日常会話のようなあいまいな言語構造を持つ「自然言語」の解析もかなりの精度で行えるようになった。

 こうした自然言語処理研究の先駆けである松本教授は、日本語の意味を持つ最小単位の「形態素」を解析する「茶筌(ちゃせん)」をはじめ、多様な言語解析システムを開発、公開してきた。最近では、オンラインで入手できる科学技術分野の論文が急増して、専門家でさえも最新の研究成果を把握し難くなっていることから、「膨大な数の論文を自動的に効率よく計算機が解析して情報・知識を獲得し、重要な論文の検索など研究者に役立ち、イノベーションにつながるシステムの開発を行っています」と松本教授は説明する。

 現在、取り組んでいるテーマの一つが、科学技術振興機構(JST)の戦略的創造推進事業(CREST)の中の「構造理解に基づく大規模文献情報からの知識発見」。それぞれの分野特有の高度な知識を含む論文の構造や内容を解析(理解)し、的確な文献の検索、新たな知識の創造などを支援するシステムを構築する。

 もうひとつは理化学研究所の革新知能統合研究センター(AIP)の知識獲得チームのリーダーとして行っている専門分野のデータベースづくりの自動化。これまで人海戦術で膨大な時間と手間がかかっていたものを、論文の文章や図表を自動的に解析する技術などを使い、データベースを効率よく拡充する。

 「このテーマに取り組みはじめてから、結構、役に立つと好評で、公的な研究所や企業との共同研究も増えています」と張り切る。

査読が自動化できたら

 このような論文解析のシステムの開発には、有効な情報を抽出するための試行錯誤が重ねられた。例えば、理系の論文は、「どんな問題に対し、どんな手法を適用して、どんな結果が出たか」というように、成果を得るまでの筋道が明確な構造の文章で書かれているので解析しやすいといわれる。専門分野を絞れば、同様の構造を持つ論文が多くなり、情報を抽出して比較検討できる。

 ところが、範囲を広げて関連分野全体を俯瞰する形で解析する場合、論文中の内容をコンパクトに記した「アブストラクト(要旨)」を対象にして効率化を図ろうとしたが、研究者によってまとめ方が大きく異なり、使えないこともあった。そこで、論文の本文から「目的」「手法」「結果」という3項目のセクションに限って分類し、それを手掛かりに論文間で類似する度合いなどを判定したところ、「研究のねらいは同じだが、手法が異なる」など、論文の特色に踏み込んで検索できるようになった。

 松本教授は「将来、論文を評価する査読(さどく)が自動的に行えるようになることがベストで、やたら論文の数を競うような状況が防げ、論文の質が向上します」と抱負を語る。また、これまでの業績を振り返り、「若い人にとって研究はつらいことの方が多いが、結局、途中で諦めなかった人がうまくいく。それは、ほんの一部であっても、諦めたら可能性はゼロになる」と「継続は力なり」の論理で励ます。趣味の合気道は、最近、二段に昇格した。「体の動かし方が合理的で、上手な人ほど力を使わない。高齢になっても技量が衰えることはなく、続けていきたい」と話す。

データの関係性を見出す

 一方、新保准教授の研究テーマは、人工知能(AI)とデータマイニング。なかでも、インターネットなどから得られる特定の分野の大量のデータを計算機で解析し、そのデータ群を構成する要素(ノード)のうち「どれが重要か」「どれとどれが近い関係にあるか」を見出す手法だ。これは自然言語処理の技術に応用できるが、最近は、ノード同士のつながりをグラフ(図)の形で整理した「知識グラフ」というデータベースに関する研究も行っている。人間の常識を、「知識グラフ」で表すことで、質問応答システムなどで活用できると期待されているが、必要なデータが欠落していることもある。そこで、グラフのパターンを自動的にチェックして、データを補完する手法の開発をめざしている。

 「人工知能関連の研究を続けてきましたが、応用より、むしろ基礎研究に惹かれます。そんな違った見方があったのかといわれるようなユニークな研究をしたい」と語る。

 また、進藤助教は自然言語処理や画像処理の技術を使った論文の解析を手掛けている。計算機が論文の中から、図や表を含め必要な情報を自動的に抜き出す方法の研究で、そのためには、あらかじめ人間が重要な語句や、項目などをマークしておいたうえで、計算機に学習させる必要がある。ただし、最初は、計算機が論文の基本構造すら知らない白紙の状態なので、サンプルとして数百の論文からパターンを覚えこませ、次いで結果を人間にフィードバックして修正する形で精度を上げることに成功した。

 「将来的には、自分が全く知らない分野の知識を整理してわかりやすく提示するシステムをめざしたい」と意気込む。

 進藤助教は、大学院修士課程までバイオ情報の分野でDNA解析の研究をしていたが、民間の研究所に就職し、言葉の文法や意味を計算機で処理することに興味を持ち、本学の博士課程で情報科学を学んだ。「今後はバイオ・化学・材料など他分野の研究者と協調して、論文解析の応用可能性を探っていきたい」と語る。

高価値の論文を探索

 松本研究室は、スタッフ8人、留学生を含む学生40人の大所帯。それだけに、学生らは、活発に議論し、自由度が高いテーマに取り組んでいる。

 博士後期課程3年生の小林雄太さんは、論文の章立ての構造と引用文献の関係性を示すグラフを使い、「目的は同じでも手法が異なる論文」といった高価値の論文を見つけるシステムを開発した。「実用化の段階で、近く、ハワイで開かれるAI関連の国際学会で発表します」と意気込む。自分で作ったAIのプログラムを使い、将棋のTVゲームで対戦すると戦術の展開がよくなるといい、「やはりAIと人の組み合わせは強い」と話す。

 博士前期課程2年生の和田崇史さんは、スペイン語から英語など欧州系の言語間で、辞書データが全く無いなかでの自動翻訳の研究に取り組んでいる。「教師なし学習という機械学習の方法のひとつで、例えば、主語、動詞、目的語と続く、英語の文構造と順番が類似していれば、他の言語を当てはめて意味を推測できます。将来的には、単語の意味だけでなく、ニュアンスまで伝えられるようにして、楽しく外国語を学べるようにしたい」と語る。海外留学の経験があり、常に英語でブログを発信している。