/

NTTが画像奥行き情報抽出で新手法 ボケ強弱から推定

日経クロステック

NTTは25日、教師なし学習で画像内の3次元情報を推定する技術を開発したと発表した。人工知能(AI)のアルゴリズムの1つである敵対的生成ネットワーク(GAN)をベースにした「AR-GAN」というモデルにより、画像と奥行き、ボケ効果の3つの情報の関連性を学習する。

新手法は、寄せ集めの2次元画像で奥行きの学習が可能(出所:NTT)

専用の測距機器を用いずに寄せ集めの2次元画像のみで学習できることから、幅広い被写体の学習に適用できる。焦点情報から奥行き情報を学習するアルゴリズムを開発したのは、世界初だという。

GANは、乱数から偽物の画像を生成する「生成器」と、与えられた画像の真贋(しんがん)を識別する「識別器」の2つの深層ニューラルネットワーク(DNN)から構成されている。生成器はなるべく精巧な偽画像を生成しようとするが、識別器はなるべく生成器にだまされないように画像の識別精度を高める。

こうした敵対的な関係にある2つのシステムが競合する過程で、GANは本物の画像と見分けがつかないような偽画像を生成する。

AR-GANは、写真におけるボケの強弱(被写界深度の浅深)と奥行き情報に相関があることを利用する。モデルに組み込んだカメラの絞りを模擬した機構が、生成写真に対してボケを加える。ボケのない写真とボケのある写真の2種の写真をそれぞれ最適化する過程で、AR-GANはボケ効果も間接的に学習する。

つまり、識別器を欺けるほど自然なボケが人工的に作れるようになれば、AR-GANはボケ効果を「理解」したことになる。ボケは画像の奥行き情報を示しているため、ボケを理解したAR-GANは3次元情報を抽出できるようになるという仕組みだ。

AR-GANの概要(出所:NTT)

「教師あり学習のように(高性能センサーの)LiDAR(ライダー)で画像・奥行きのペアデータを用意しなくても、一般的な画像データのみで学習できるのが大きな強みだ」(NTTコミュニケーション科学基礎研究所特別研究員の金子卓弘氏)

この分野の教師なし学習で従来着目されてきたのは視点情報であり、それは同種の被写体をさまざまな視点で撮影した画像データで学習するというものだった。この手法には、花の画像のように視点の種類が限られた被写体には適用しにくいという欠点がある。

一方、ボケ効果は、一般的なカメラで撮影された写真であれば自然に存在するため、学習データに多様性があり、幅広い被写体に適用できるとする。NTTによれば、AR-GANは花画像や鳥画像、顔画像などの学習に使えるという。

AR-GANの適用例(出所:NTT)

(日経クロステック/日経エレクトロニクス 土屋丈太)

[日経クロステック 2021年6月25日掲載]

すべての記事が読み放題
有料会員が初回1カ月無料

関連トピック

トピックをフォローすると、新着情報のチェックやまとめ読みがしやすくなります。

関連企業・業界

企業:

セレクション

トレンドウオッチ

新着

注目

ビジネス

ライフスタイル

新着

注目

ビジネス

ライフスタイル

新着

注目

ビジネス

ライフスタイル

フォローする
有料会員の方のみご利用になれます。気になる連載・コラム・キーワードをフォローすると、「Myニュース」でまとめよみができます。
新規会員登録ログイン
記事を保存する
有料会員の方のみご利用になれます。保存した記事はスマホやタブレットでもご覧いただけます。
新規会員登録ログイン
Think! の投稿を読む
記事と併せて、エキスパート(専門家)のひとこと解説や分析を読むことができます。会員の方のみご利用になれます。
新規会員登録 (無料)ログイン