/

異なる言語間の対話仲介 人工知能で「同時通訳」手元に

宮本和明 米ベンチャークレフ代表

ITpro
Skype(スカイプ)が音声通訳機能「Skype Translator」を公開し、SFの世界が現実になったと話題を呼んでいる。Skype Translatorは、人間の同時通訳のように、発言をほぼリアルタイムで相手の言語に翻訳する。国際会議のように、異なる言語間でのコミュニケーションを可能にする。人間同士のコミュニケーションの範囲を地球規模にまで広げるツールと期待されている。

Skype Translator登場の背景には、米Microsoft(マイクロソフト)の人工知能に関する基礎研究がある。Microsoftは、音声認識に人工知能を適用することで、認識率を大幅に向上することに成功した。Skype Translatorのリリースは、Microsoftの長年にわたる機械翻訳開発が結実したことを意味する。

英語とスペイン語で会話

Microsoftは2014年12月、Skype Translatorのベータ版(preview program)を公開した。これはSkypeへのアドオンで、異なる言語間での会話を翻訳する。MicrosoftはSkype Translatorのデモビデオを公開し、どのように利用するかを説明した(下写真)。

このデモはメキシコと米国の生徒がSkype Translatorで会話しているシーンで、スペイン語と英語でコミュニケーションが成立することを示している。

米国人の生徒が英語で話し終えると、システムはそれをスペイン語に翻訳して音声で伝える。同時に、会話の内容がテキストでも表示される(下写真)。同時通訳を介して討議するように、会話が進行する。

通常の同時通訳は、話し手の会話が終わる前に翻訳が同時進行するが、Skype Translatorの場合は発言が終わってから、システムが翻訳する。

慣れれば相手の発言を理解

利用方法はシンプル。アプリの「Translator」ボタンをオンにして、翻訳機能を起動する。次に、相手の話し言葉と書き言葉を選ぶ。現在、英語とスペイン語間での翻訳機能があるので、こちらの言語を英語とし、相手の言語をスペイン語に指定した。

会話を始めると、自分が話したことが相手の言語に翻訳され、音声で流れる。一区切り話すと、システムはポーズを発言の終わりと捉え、翻訳を開始する。相手のスペイン語での発言を聞いた後に、英語の翻訳を聞くという流れとなる。同時に、Skype Translatorのパネルの右側には、会話が両国の言語でテキスト表示される(下写真)。

使い始めた当初は音声認識の精度が悪く、翻訳が会話の途中から始まったりして、かなり戸惑った。しかし、パソコン内蔵マイクの代わりにヘッドセットを使うと、音声認識の精度が大幅に改善された(後で説明を読むとヘッドセットを使うよう書いてあった)。また、少し早口に話すと、会話の途中で翻訳が始まらず、発言が終わった時点で開始されるため、スムーズに会話できることが分かった。

Skype Translatorに慣れるまでには少し時間がかかったが、その後は相手の言っていることが理解できるようになった。現時点ではMicrosoftがベータ版としているように、システムは実戦を通して学習中だが、「意外と使える」との印象を持った。

翻訳のプロセス

Skype Translatorは人工知能をフルに活用している。音声認識と機械翻訳機能を搭載し、それらを機械学習プラットフォーム上に展開している(下写真)。

動作の仕組みはこうだ。利用者が発言すると、Skype Translatorがそれをテキストに変換(Speech Recognition、音声認識)する。システムは変換されたテキストから、「あー」とか「うー」など翻訳に障害となる言葉(Speech Disfluency)を取り除く。この処理が施されたテキストを相手の言語に翻訳(Machine Translation、機械翻訳)し、それを音声に変換(Speech Synthesis、音声合成)することで一連のプロセスが完結する。

音声認識のプロセスに人工知能を適用することで、認識率が格段に向上した。システムは機械学習で入力した教育データから、会話に関する言葉の統計モデルを構築する。利用者が言葉を発すると、それを統計モデルと比較して、類似のケースを見つける。具体的には、発言者の音声を細分化し、音声要素(Senoneと呼ぶ、Phoneme=音素よりさらに細かい単位)で定義する。これを事前に学習したデータと比較し、最も出現確度が高いテキストに変換する。

音声認識では、学習教材から言語に関することを学び、精度を上げることが重要になる。教育データとして、翻訳されたWebページ、ビデオのキャプション、1対1の会話の翻訳などが使われている。ただし、Skype Translatorはまだまだ教育中で、ベータ版を利用している人の会話を保存し、教育データとして使っている。このため、Microsoftは利用上の注意として、「製品改良のために利用者の会話が保存される」ことを明示している。

Deep Neural Networksを適用

Skype Translatorは、音声認識で「Deep Neural Networks(DNNs)」を使っている。これによって認識率が格段に向上し、音声認識技術のブレークスルーになったと言われている。

具体的には、従来の手法(Gaussian Mixture Model)に比べて、難しいタスクのベンチマークで、エラー率が33%も減少した。Microsoft ResearchのFrank Seide氏らは、これを「Conversational Speech Transcription Using Context-Dependent Deep Neural Networks」と題した学術論文で公表している。

Microsoftの機械翻訳に関する研究は、カナダ・トロント大学のGeoffrey Hinton教授との出会いが成功への決定的なきっかけとなった。Hinton教授はDNNsを機械学習に応用し、「Fast Learning Algorithm for Deep Belief Nets」など歴史に残る論文を発表した。

Microsoftは2009年12月、カナダでワークショップを開催し、その場でHinton教授がDNNsについて講演した。これが、Microsoftが音声認識技術にDNNsを採用することを導いた。

発表内容は公開されているので、今でも読むことができる(下写真)。

出発点は軍の暗号解析

Skype Translator登場の背景には、音声認識や機械翻訳技術に関する10年を超える基礎研究の歴史がある。

そもそも機械翻訳技術の開発は、第二次世界大戦をきっかけに始まった。英国諜報機関がドイツ軍の暗号解読に成功したことで、言語を他の言語に変換することへの期待が高まった。暗号解析では"人工知能の生みの親"とされるAlan Turing(アラン・チューリング)氏の功績が大きい。

彼の名は、ある機械が人工知能であるかどうかをテストする試験「Turing Test」にも名が残っている。第87回アカデミー賞で脚色賞を受賞した映画「The Imitation Game」(邦題:イミテーション・ゲーム/エニグマと天才数学者の秘密)は、Turing氏の人生を描いたものだ。

その後、米IBMなどが機械翻訳の開発を進め、大きな期待を寄せられたものの成果は限定的だった。米国防総省(DoD)などは、自動翻訳システムの開発に疑問を呈し、機械翻訳研究は停止に追い込まれた。

その一方で、1970年から1980年代は機械翻訳のベースとなる基礎技術の開発が進んだ。Lalit Bahl氏らは、後に「Hidden Markov Models」と呼ばれる音声認識アルゴリズムを開発(Skype Translatorの音声認識はHidden Markov ModelsとDeep Neural Networksを組み合わせた構造)。Bahl氏は後に、IBM のWatson Research Centerで自動翻訳技術開発を始める。

人工知能技術では、Deep Neural Networksの研究が行われ、Yann LeCun氏などによりネットワークが改良されて機能が向上した。機械翻訳の研究自体は停滞したが、そのベースとなる技術の研究が進んだというわけだ。

1997年には、米Dragon Systems(当時)とIBMから音声認識技術を使った消費者向けの製品が登場し、キーボードでタイプする代わりに音声で入力できるようになった。Dragon Systemsは「Dragon NaturallySpeaking」をリリース。音声認識ソフトウエアの代名詞となった。同社はその後Nuance Communicationsに買収された。一方、IBMは「ViaVoice」という音声認識ソフトウエアをリリースし、業務などでも使われた。

Microsoftの功績

Microsoftは2005年から機械翻訳の研究を開始し、2009年から音声認識で人工知能技術を適用した。2013年には、向上した音声認識技術を「Bing Voice Search for Windows Phone」に適用。下写真はiPhone向けの「Bing Search」で、音声認識精度は極めて高い。

機械翻訳の研究成果はBing、Office、SharePoint、Yammerなどにも応用された。2014年には、パーソナルアシスタント「Cortana(コルタナ)」にDeep Neural Networksモデルが適用され、音声認識率が大幅に向上した。Microsoftが音声認識に人工知能を適用する手法を示したことで、業界で幅広く使われるようになった。

ちなみに、Skype Translatorの機械翻訳では「Microsoft Translate」が使われている。

「最大の誤算」の汚名返上か

言語はしばしば猛獣に例えられる。一定ではなく常に移り変わり、様々な種類が存在するため、扱いにくいという意味である。また、話し言葉と書き言葉の間には大きな差異がある。言葉はその使われ方で、地方、国、文化など、利用者のアイデンティティーを反映する。

この多様な言語の理解に、ソーシャルネットワークが有効な学習教材となってきた。Microsoftは自らが出資するFacebook(フェイスブック)などのソーシャルネットワークで言語の多様性を把握し、翻訳の研究を重ねてきた。この研究がSkype Translatorの日常用語や語彙の翻訳で役立っている。

情報処理技術の最大の誤算は、機械翻訳であると言われてきた。開発当初は、コンピューター技術の進化とともに、翻訳技術が完成するのは時間の問題と思われていた。これが予想外に難航し、開発が始まってから70年たった今も、機械翻訳は完成しているとは言い難い。

しかし、Deep Neural Networksという武器を手にしたことで音声認識技術なども格段に向上し、完成に向けて大きく前進している。Google(グーグル)がサービスを提供する音声検索で認識率が格段に向上したのも、Deep Neural Networksの採用によるところが大きい。

宮本和明(みやもと・かずあき)
米ベンチャークレフ代表 1955年広島県生まれ。1985年、富士通より米国アムダールに赴任。北米でのスーパーコンピューター事業を推進。2003年、シリコンバレーでベンチャークレフを設立。ベンチャー企業を中心とする、ソフトウエア先端技術の研究を行う。20年に及ぶシリコンバレーでのキャリアを背景に、ブログ「Emerging Technology Review」で技術トレンドをレポートしている。

[ITpro 2015年3月3日付の記事を基に再構成]

すべての記事が読み放題
有料会員が初回1カ月無料

関連企業・業界

企業:

セレクション

新着

注目

ビジネス

ライフスタイル

新着

注目

ビジネス

ライフスタイル

新着

注目

ビジネス

ライフスタイル

フォローする
有料会員の方のみご利用になれます。気になる連載・コラム・キーワードをフォローすると、「Myニュース」でまとめよみができます。
新規会員登録ログイン
記事を保存する
有料会員の方のみご利用になれます。保存した記事はスマホやタブレットでもご覧いただけます。
新規会員登録ログイン
Think! の投稿を読む
記事と併せて、エキスパート(専門家)のひとこと解説や分析を読むことができます。会員の方のみご利用になれます。
新規会員登録 (無料)ログイン
図表を保存する
有料会員の方のみご利用になれます。保存した図表はスマホやタブレットでもご覧いただけます。
新規会員登録ログイン

権限不足のため、フォローできません