日本語授業映像に付ける英語字幕をAIで自動作成 深層学習技術活用のシステムを開発 ~留学生らの自習支援など国際化に期待~

2019/06/07

日本語授業映像に付ける英語字幕をAIで自動作成
深層学習技術活用のシステムを開発
~留学生らの自習支援など国際化に期待~

【概要】

 奈良先端科学技術大学院大学(学長:横矢直和)先端科学技術研究科 情報科学領域 知能コミュニケーション研究室の 中村 哲 教授、須藤 克仁 准教授らのグループは、日本語で行われている授業の映像にかぶせて付け加える英語字幕について、AI(人工知能)技術により、専門的な内容にまで踏み込んで的確に自動作成するシステムを日本で初めて開発しました。

 中村教授、須藤准教授らが開発したシステムは、「深層学習」というAI技術に基づき、音声認識および機械翻訳によって、日本語講義音声の書き起こしと英語への翻訳を行うものです。このシステムを授業映像アーカイブで利用することにより、日本語を解さない留学生等が日本語で開講されている講義を英語で視聴し学習できるようになると期待されます。本成果は2019年6月13-14日に開催される情報処理学会 自然言語処理研究会で6月14日に発表される予定です。

【ご連絡事項】

(1)本件につきましては、奈良先端科学技術大学院大学から奈良県文化教育記者クラブをメインとし、学研都市記者クラブ、大阪科学・大学記者クラブへ同時にご連絡しております。

(2)取材希望がございましたら、恐れ入りますが下記までご連絡願います。

(3)プレスリリースに関する問い合わせ先
 奈良先端科学技術大学院大学 先端科学技術研究科 情報科学領域
 知能コミュニケーション研究室 教授 中村 哲
 TEL:0743-72-5260 E-mail:s-nakamura@is.naist.jp

 同 准教授 須藤 克仁
 TEL:0743-72-5261 E-mail:sudoh@is.naist.jp

【解説】

 今回開発したシステムは、深層学習に基づく音声認識および機械翻訳技術を利用して、日本語の授業音声から英語字幕を自動的に作成するものです。現在奈良先端大で運用されている授業アーカイブシステムの講義映像に字幕を重畳表示する機能を備えています。今回開発したシステムが作成した英語翻訳字幕はこの授業アーカイブシステム上で表示されます(図1)。
従来音声を入力する機械翻訳は旅行会話等の比較的短い発話を対象とするものや、整った講演を対象としていました。本システムで対象とする授業の音声は、時間が長く、かつ自然な発話のためしばしば言い淀みや言い直しが含まれています。さらに、大学院の講義という専門的な内容を扱うこともあって、従来の枠組みで翻訳をすることは容易ではありません。本システムでは、実際の授業のデータを含む専門的な内容のデータも活用して音声認識や機械翻訳の学習を行うことで、授業音声の翻訳を可能にしています。

図1
図1. 自動作成された字幕を付与した授業アーカイブ講義映像視聴のイメージ

【開発した音声認識と機械翻訳の技術】

(音声認識)
音声認識エンジンには深層学習に基づく音声認識方式を用いています。約240時間の音声データと、大量の話し言葉の書き起こしやインターネット上の文書データを利用して音声認識エンジンを学習させました。授業アーカイブのデータも一部書き起こしを行って利用しています。
現時点での授業音声に対する音声認識精度は、授業の担当教員や内容によって異なりますが80%台半ばで、より正確な字幕作成を実現するための技術の改善と学習データの蓄積を今後さらに進めます。

(機械翻訳)
機械翻訳エンジンには、ニューラル機械翻訳と呼ばれる、深層学習に基づく機械翻訳技術に基づいた処理を行う方法を開発して利用しています。授業アーカイブのデータを一部翻訳したものに加え、科学技術関連の日本語・英語対訳文を約200万文利用して機械翻訳エンジンを学習させました。
現時点での授業書き起こしに対する機械翻訳精度は、単語の正解率で60%弱です。音声認識を通した場合はさらに精度が低下するため、より正確な字幕作成を実現するための技術の改善と学習データの蓄積を今後さらに進めます。

【背景と目的】

 大学・大学院等のグローバル化の促進により、留学生が増加し、また英語で開講される授業数も増加していますが、多数の授業は日本語でのみ開講され、日本語を解さない留学生が学習できない科目が多く存在するのが実情です。

 奈良先端大では、数多くの授業映像を録画・蓄積し、学内外に公開する授業アーカイブシステムを運用しています。本学では講義の英語化が7割程度まで進んではいますが日本語のみの講義も存在しています。こうしたことから、講義アーカイブの翻訳により日本語を解さない留学生等の学習支援に役立てることを目指し、授業映像に対して授業の日本語音声を英語に翻訳し、字幕を自動作成するシステムを開発するプロジェクトを2016年より開始しています。

【今後の展開】

 今後は音声認識や機械翻訳精度のさらなる向上に向けて、授業データのさらなる整備と技術の改良を進めるとともに、情報科学領域以外の授業への拡張を行う予定です。また、英語開講の授業に対する日本語字幕の付与についても今後検討する予定です。

【用語解説】

  • 深層学習:
    機械に物事の規則やパターンを獲得させデータの分類や物体の認識等を可能にする機械学習と呼ばれる技術の一種で、比較的単純な計算を多数組み合わせることで複雑な処理を可能にする技術で、この十年あまりの間に急速に発展してきた人工知能関連技術の中核をなすものです。

【本研究内容についてコメント出来る方】

奈良先端科学技術大学院大学 先端科学技術研究科 情報科学領域 自然言語処理学研究室 松本 裕治 教授
TEL:0743-72-5240
E-mail:matsu@is.naist.jp

【本プレスリリースに関するお問い合わせ先】

奈良先端科学技術大学院大学 先端科学技術研究科 情報科学領域
知能コミュニケーション研究室
氏名:中村 哲
TEL:0743-72-5260 FAX:0743-72-5269 E-mail:s-nakamura@is.naist.jp
氏名:須藤 克仁
TEL:0743-72-5261 E-mail:sudoh@is.naist.jp

プレスリリース一覧に戻る