2018年6月23日(土)

4時間でゲーム制覇 グーグル「驚異の人工知能」手中に
宮本和明 米ベンチャークレフ

(2/4ページ)
2015/3/18 7:00
保存
共有
印刷
その他

■7本のゲームでベンチマーク

 DeepMindは、同システムがゲームを学習する手法を論文(「Playing Atari with Deep Reinforcement Learning」)で公表している。この中では、システムがゲームを学習するメカニズムやベンチマーク結果についての考察を紹介している。

 DeepMindのシステムはセンサーからのインプット(入力)を受け、制御ポリシーを学習し、ポイントが最大になると思われる操作を行う。つまり、システムはゲーム画面を見て、得点を得るよう、自らプレー方法を学習する。当然のことながら、ゲームソフトウエアを「リバースエンジニアリング」して、ゲーム進行のメカニズムを把握しているわけではない。

 具体的にはアーケードゲームを学習するフレームワーク「Arcade Learning Environment」を利用し、米Atariが開発したゲーム7本を使ってベンチマークを実施した。その結果、ゲームごとにアーキテクチャーやアルゴリズムを変更しなくても、システムが広範囲のゲームを自ら学べる能力が実証された。

■人間のエキスパートをも凌駕

 DeepMindは、人間のゲームエキスパートを凌駕する結果を示した。下の表が評価結果の一部で、ゲームごとに得点が示されている。最上段がゲームの種類で、左コラムが挑戦者名である。「DQN」がDeepMind、「Human」が人間のエキスパートを示す。その他は、既存のゲーム学習システムである。

ベンチマークの結果(出典: DeepMind)

ベンチマークの結果(出典: DeepMind)

 DeepMindは、既存のゲーム学習システムに圧勝しただけでなく、「Breakout」(ブロックくずし)、「Enduro」(カーレース)、Pong(ポン、卓球ゲーム)では、人間のエキスパートを凌駕した。前述のブロックくずしでは、人間のエキスパートが獲得した得点の5.4倍となり、圧倒的な技量を示した。

 論文によると、DeepMindはDeep Learningの一手法「Convolutional Neural Network」 と学習モデル 「Reinforcement Learning」を組み合わせたシステムである。

 Convolutional Neural Networkとは、脳の構造をモデルとしたネットワークで、イメージなどから特徴量を抽出するために使われる。一方、Reinforcement Learningは、ある環境下(ゲームなど)で、行動を起こし(ゲームを操作し)、それに対するフィードバック(得点など)で学習する手法を指す。

 ビデオゲームでは、ボタンを操作してからそれが得点につながるまで、長いステップを要する。操作と得点の関係が時間的に離れているので、どの操作が正しいかの判定が難しい。DeepMindは、ビデオイメージから特徴量を抽出し、人間や動物のように試行錯誤を重ねて学習するシステムと言える。

■Google製品に導入へ

 GoogleのPage氏は上述の対談で、「今のコンピューターは機能していない」と繰り返し説明した。コンピューターは利用者に関するコンテクスト(状況)を把握していないという意味で、これには根本的な改良が必要と述べている。

 人工知能は改革のカギであり、久しぶりにエキサイティングな技術に出会ったとも述べている。ニューロサイエンスとコンピューターサイエンスが結びつくことで、新しい分野が生まれ、Page氏は人工知能開発でブレークスルーが起こっていることに期待を寄せている。

 また同氏は、DeepMindをGoogleの製品/サービスに適用するプロジェクトを展開していることを明らかにした。その一つが検索エンジンで、DeepMindで利用者の意図を学び、最適な情報を提示することを目指している。また、YouTubeの動画推奨機能や、モバイル音声検索機能などにDeepMindを適用する計画だ。数年以内に機能強化されたシステムが登場するとしている。

  • 前へ
  • 1
  • 2
  • 3
  • 4
  • 次へ
保存
共有
印刷
その他

関連企業・業界 日経会社情報DIGITAL



[PR]

日本経済新聞社の関連サイト

日経IDの関連サイト

日本経済新聞 関連情報