~広報誌「せんたん」から~

[2020年5月号]

小規模なデータで効率的な学習

 人が働き、生活する環境の中にロボットが入り、有能な仲間となるためには、高度な知覚や臨機応変な判断力を身につけなければならない。ロボットラーニング(ロボットのための機械学習)研究室は、周囲の環境や対象物のデータを自動的に入力して解析し、最適の行動のルールを推測する「機械学習」という仕組みの人工知能(AI)アルゴリズムを構築する。そして、柔軟で不定形な布などの操作スキルをロボットに獲得させたり、風や波、潮の影響を受けやすい小型船舶に自動運転機能を持たせたりと、自動化が困難だったさまざまな現場に踏み込んでロボット工学の未来を拓く研究に挑んでいる。

 この研究室は、優れた若手研究者が選ばれて主宰するテニュアトラック制度(任期付)により、昨年1月に設けられた。リーダーの松原特任准教授は主要なテーマについて「ロボットの用途に応じ、必要なデータの自律的な収集から、データから最適な行動ルールを推測する機械学習・深層学習まで、実用に見合う効率で安定的に計算できる形でアルゴリズム(処理手順)を開発しています」と説明する。

 機械学習の中では、ロボットが試行錯誤を繰り返す中で最適な行動を選び出す「強化学習」や、脳の神経細胞のようなネットワークで自動的に特徴点を抽出する「深層学習(ディープラーニング)」の研究が発展しており、プロ棋士に勝つ囲碁ソフトなどが注目されている。しかし、いずれも膨大なデータが必要で、現場でロボットがデータ収集する際の手間や故障を考えると、実用には向かない。そこで、ロボットが収集可能な範囲の小規模なデータで深層強化学習ができる技術を開発している。

複雑な布操作スキルを学習

 その技術を使った大きな成果のひとつが、ハンカチを裏返したり、子供服をたたんだりという作業を効率的に学習するロボット。不定形で柔軟なために不確実な形を取る対象物を扱うのは本来、苦手なロボットだが、これまで最短でも10時間以上かかった学習過程を約4時間へと大幅に縮めた。
「ロボットが布をつまんだり、離したりして、その様子を画像で見ながら経験データを蓄積する。限られたデータ量なので、アルゴリズムは、一番良いと大まかに推測される答えを安定してスピーディに出せるような設計指針にしました」と打ち明ける。

 ここで、根拠になった理論は、実験データの誤差を推定し、補足する数学の確率論に基づく確率制御理論。これを応用してデータの不足、バラつきをカバーすることができた。

 実は、松原特任准教授は、2013年にNAISTの「若手研究者の海外武者修行」プロジェクトで1年間、オランダ・ラドバウド大学の客員研究員になった。あえて現代のロボット工学そのものの研究を避け、その根底にある数学や物理の基礎理論を集中して学んだ。「そこで知った基礎理論にはAIと結び付かず独自に発展したものがあり、今度はその一つがロボットラーニングと結びついて新たに花開きました」と感慨深げ。

図1 ハンカチの裏返し方を学習する双腕ロボット

小型船を自動運転

 研究室が取り組むプロジェクトのテーマは10を超える。

 船用事業を行う企業との共同研究は、天候や潮流の影響を受けやすい小型船舶に自動運転機能を持たせること。1時間ほどランダムに航行して天候や海域のデータが集まれば、AIが機械学習して船体の動きを予測し、与えられた仕事をこなす行動ルールを弾き出す。例えば、釣りをする場合、指定した海上の目標地点に自動的に到着し、そこでハンドルを切り返して留まることもできる。
「この技術も布操作ロボットの研究と同じで、少ないデータを活用していますが、別の基礎理論を使っています。われわれの研究室では、さまざまな基礎理論を準備しているので、基本的に目的に合う理論を選んでヒントを得て、AI技術を一から設計していくという方針です」と松原特任准教授。

 ユニークなのは、大手レストランチェーンと共同研究している「日本料理の盛り付けロボット」。和食の場合、食品を非対称に配置するなど本職の料理人並みの感性が反映されなければならない。そこで深層学習の「敵対的模倣学習」という先駆的なAI技術を使った。料理人の手本をデータ化したうえで、ロボットの膨大な練習データと混ぜ、そのデータが手本に十分に似ているかどうかを判定する。その作業を繰り返して本物に近づけることで、感性を習得するように研究を進めている。

 このほか、化学プラントまでの微調整を強化学習で自動的に行い、それにかかる時間を大幅に短縮するなど多方面でAI技術の導入に貢献している。

図2 天ぷらの盛り付け方を学習

ドンドン世の中の機械を自動化したい

 松原特任准教授は、2003年にNAISTの情報科学研究科に入学後、連携講座があるATR(国際電気通信基礎技術研究所)の見学会に参加したのをきっかけにインターン学生になった。そこで、初めてロボットの研究に出合ってたちまちのめり込んだ。「強化学習による二足歩行の研究に取り組みましたが、当時はGPU(画像処理装置)や深層学習はありませんでした。社会的要請の多い現在と比べると落ち着いて研究ができる雰囲気でした」と振り返る。

 今後の研究については「現状の技術で自動化できる機械がまだまだあるので、ドンドン成し遂げたい。一方で、AIが試行錯誤して学習するときに危険な失敗をさせずに安全性を確保するという問題も重要なことがわかり、基礎研究に立ち返って取り組んでいます」。研究三昧の毎日だが、休日は家族で葛城山や二上山など奈良県の代表的な山に登るのが、最近の楽しみだ。

ごみの焼却にも貢献

 研究室の別室には、布など不定形な対象物の操作を自動的に機械学習する双腕ロボットなど実験用のロボットがずらりと並び、学生らはモニター画面の画像をチェックしながら、ロボットを操作してデータを記録し、実験に励んでいる。
 鶴峯義久さん(博士後期課程2年)は、データ効率の高い深層強化学習により、衣類など柔軟物をスムーズに扱わせるのがテーマ。「人間の代わりに家事ができるような賢いロボットづくりを目指しています。現段階では、開発した手法の性能を評価するための実験で、ハンカチを裏返したり、子供服を折りたたんだりと人にとっては簡単だが、ロボットには困難な作業の遂行に成功しました」と表情をほころばせる。中高生のころからロボットに興味を持ち、ロボットコンテスト「ロボコン」のソフトウェア部門で全国優勝した経験がある。ロボット本体そのものを作製するより、どのように動かすかという制御の分野に興味があり、研究を重ねてきた。「実ロボットでは1回の実験に10時間かかることもありますが、とにかくあきらめない。将来も行動を学習するロボットについて研究を続けたい」と意気盛ん。

 一方、ごみ焼却施設で使う大型クレーンの自動運転の研究を手掛けているのは、佐々木光さん(博士後期課程2年)。回収したごみをつかんで燃焼炉に放り込む機械だが、さまざまなごみを均質に混ぜると燃焼効率が安定化できる。このため、クレーンを作動するための信号や燃焼炉内の画像データなどを解析して、機械学習により挙動を最適化する。貴重な実プラントでの実験の機会には、現地に1週間泊まり込んで検証した。

 「機械学習は、現段階ではまだ十分に産業に応用されていないのでやりがいのあるテーマです」という。現場に大型クレーンは1台しかなく、センサーもついていないので、獲得できるデータが少ない。そこで、研究室にクレーンを模したロボットを作るなどした。「制約された環境の中で、結果を予測してうまく動作させるような手法を開発しました。企業との密な共同研究で実践力も身についたと思います」と張り切っている。

 ※学生の学年は2020年2月取材当時のものです。

図3 制作した模擬ゴミクレーン