~広報誌「せんたん」から~

[2016年9月号]

ツイッタ―で感染症を予測

コンピュータが単語の意味や文法を手がかりに自動的に文意を読み解く「自然言語処理」などの情報技術を使い、社会にあふれる膨大なデータを見渡して、起きている現象の傾向を見抜き、解決すべき課題を探りだす。まるで卓越した能力を持つ情報科学者のようなコンピュータシステムの構築に挑んでいるのがソーシャル・コンピューティング研究室を主宰する荒牧特任准教授。「自然言語処理の基礎研究と、実社会への応用の両面からアプローチし、新たなタイプの情報学の構築を目指しています」と抱負を語る。なお、荒牧特任准教授はテニュア・トラック教員※として2015年に研究推進機構研究推進部に着任され、情報科学研究科特任准教授を兼務している。

いんふるくん
いんふるくん

現在のテーマは、インフルエンザ、デング熱など感染症の流行状況の把握や早期の認知症の判定といった医療応用の分野。病院の電子カルテや症例報告書をはじめ、ツイッタ―などソーシャルメディア(SNS)に記された言葉、患者本人の会話と3種類のデータを扱い、その中から、テーマに沿った医療関係情報を自然言語処理の技術でピックアップして解析し、判断材料を提示する。なかでも解析研究のベースになる電子カルテなどの情報は、研究室が開発したデータベースの検索システム「症例くん」を使い、管理している関連学会や大学附属病院の協力を得て提供され、計6~7万件に達している。

こうしたデータの中で、荒牧特任准教授はツイッターが感染症予防の有力な情報源になることを証明した。インフルエンザの場合は、感染が拡大するまでに素早く状況を把握して対策を立てる必要がある。このため、ツイッタ―のつぶやき情報を追跡した。ただ、これまでの ように「インフルエンザ」など単語のみを検索キーワードにすれば、「インフルエンザにかかったら困る」など罹患していないケースも含まれ てしまう。そこで、自然言語処理を使い文意を推測し、人工知能の技術で分類して、実際に感染したケースのみを抽出した。その結果、国立感染症研究所が報告した患者数と相関係数が0.914(1.0が100%の相関)とかなり高い精度で調べられることがわかった。この成果は、ツイッター応用の代表例とされており、多くの論文に引用されている。

つぶやきくん
つぶやきくん

「国内での流行が懸念されているデング熱などの珍しい感染症についても、全国の医療機関の電子カルテや症例報告を検索することで、どの地域でどれだけ患者がいるか、早期に流行を察知することができます。全国共通の検索システムの導入や診断の手がかりになる症状の検討など精度を高める研究を続けています」と荒牧特任准教授。このほか、薬剤の想定外の副作用を発見するなど検索システムの大規模化により、データを俯瞰することでさまざまな未知の現象が浮き彫りにできるという。

※テニュア・トラック制:公正で透明性の高い選考により採用された若手研究者が、審査を経てより安定的な職を得る前に、任期付の雇用形態で自立した研究者として経験を積むこと ができる仕組み。

スマート茶室

また、認知症についての研究は、自然言語処理の技術を使い、被験者の3分~7分の発話内容から早期に兆候を発見するもの。語彙量の多寡、どれだけ固有名詞が含まれるかという具体性などをチェックしており、一般的な簡易認知症検査のデータと比較して調べている。  

一方、基礎技術についても、電子カルテの内容を、文単位ではなく文章単位で全体の整合性をとりながら自然言語処理し、個人情報を高精度で匿名化することにも成功。症例報告書の日本語表記から正確に情報を読み取る技術も開発した。

荒牧特任准教授は人間性を表す言語に興味を持ち、自然言語処理の研究に。2005年に東京大学医学部付属病院の特任助教となってから、病院内の医療情報データを扱うようになる。 その後、ツイッターなどSNSの利用にたどりついた。「医療情報のビッグデータを扱うことで、個別の患者の情報ではわからない、多くの患者を救うデータが得られると思います」と強調する。

スマート茶室
スマート茶室

研究室内で目立つのはアート作品のような 「スマート茶室」(没入型会話情報測定環境)。 3つの壁面にビッグデータなど画像を投影する中で、内部の会話の音声を収録、動作を測定す る。その反応をフィードバックする形で画像表示し、心理実験や会話の解析システムの研究を行う。ユニークな仕掛けだが、実は荒牧特任准教授は、読書や絵画のほか、作曲もするアーティストの側面がある。2020年の東京五輪の エンブレムを手掛けている野老(ところ)朝雄氏とともに美術展を開いたこともあるほどだ。 研究室全体がエコな雰囲気にレイアウトされており、新たな発想の研究に結びつきそうだ。

パンデミックを予測

このような自由な環境の中で、若いスタッフや学生たちは、医療情報の研究に取り組んでいる。

博士研究員の若宮翔子さんは、発信した場所の位置情報がわかるツイートなどSNSの分析から、インフルエンザの流行などの現象を追っている。「これまで地域の知られていないお祭りを見つけ、ツイッターは朝の通勤時に多いなどの現象を発見してきました」と若宮博士研究員。 「これからは、感染症の追跡や、パンデミック(大流行)の発生などの状況をツイッターの位置情報を手掛かりに観察していきたい。今のところはインフルエンザについてツイッター の方が情報発信の盛り上がりが早いことがわかってきたので、警報を早めに出すことができるかもしれない」と期待する。ツイッターが流行する前から研究をはじめていて、ツイッターの進化を把握しているのが強みで「これからも SNSでの情報発信量の増大は必然なので、研究の精度を高め、実社会に還元していきたい」 という。大のイヌ好きで写真を撮って楽しむという側面もある。

磯颯さん(博士前期課程1年 生)は、ツイッターの情報をもと にインフルエンザの患者数を測定する際に、その情報に含まれる患者以外のデータを見分ける方法を開発し、 近く国際学会で論文を発表する予定。「学部のころは統計学専攻だったので、本学では分野が生かせるような問題設定をしていただきまし た。本学は、幅の広い分野の人材がそろってい るところがとてもいい」と語る。

柴田大作さん(同)は早期認 知症をスクリーニングする研究だ。「歩行アシストなど介護機器を作る研究をしていましたが、介護に関して情報からのアプローチをしたいと思っていたのでちょうどよかった。毎日が初めてのことばかり勉強するので楽しく、診断に役に立つ結果を出していきたい」と話している。