画像認識技術で説明文を生成 東大の牛久講師
深層学習(ディープラーニング)の可能性を初めて明らかにし、現在の人工知能(AI)ブームのきっかけとなった画像認識技術。この分野の最先端で世界としのぎを削っているのが東京大学講師の牛久祥孝(31)だ。競争が激しい分野で日本の存在感を高めるため、国内の研究者が力を合わせる必要性を強調する。

「小さい頃からドラえもんの脳をつくってみたかった」。牛久は現在の研究にもつながる関心を端的に言い表した。高校時代にテレビの人気番組「全国高等学校クイズ選手権(高校生クイズ)」で優勝し博識ぶりを示す一方、コンピューターのシューティングゲームや線に沿って動くロボットなどをつくっていた。
大学の専攻を機械情報工学科にしたのも「ロボットのような目に見える物体と情報処理の両方に興味があった」ためだ。その中でも、物体が何なのかを識別するのに使われ、コンピューターの「目」とも言われる画像認識に引かれ、足を踏み入れた。
2012年、カナダ・トロント大学教授のジェフリー・ヒントンのチームが深層学習を使った画像認識技術を披露し、圧倒的な精度で優勝した世界的な画像認識のコンテスト「ILSVRC」に牛久の研究チームも参加していた。従来の機械学習を用いた認識技術で挑んだチームの中では最高の2位となったが、トロント大には大きな差をつけられ、衝撃を受けた。
衝撃には2つの理由がある。1つ目はこれまで1%ほどの精度の改良を競っていた中、差が10%もあった点。もう1つは精度向上に寄与したブレークスルーが「使い物にならない」と思っていた人の脳を模した「ニューラルネットワーク」だった点だ。
画像認識技術で「大きく水をあけられた」とがっかりしたものの「ニューラルネットへの拒否反応はなかった」。画像関連の研究を続け、深層学習の膨大な計算に不可欠な画像処理半導体(GPU)の利用環境が整うと、牛久も深層学習を使い始めた。
画像認識の研究は現在「米国の1強」との見方が多い中、「米国に追いつけていないだけでなく、中国にも抜かれている」と危機感を強める。グーグルなどの米国企業とは予算規模が違うため、計算機の能力が必要な研究は分が悪く、アイデア次第で勝機のある画像認識の関連分野を開拓している。

多くの関連分野の中でも11年から続けているのが画像の内容を説明する文章の生成だ。画像とその説明文のセットをどのように学習させれば、未知の画像であっても適切な説明文を生成できるかを研究している。視覚障害者向けの支援や検索エンジンの改良に応用できるという。
努力が報われて、16年に開かれたイラスト画像に関する質問文の答えを生成するコンテストでは、同技術を応用し世界一となった。
今後、取り組もうと考えているのが、文章の内容を表す画像や動画の生成だ。画像と文章をひもづける点は現在の研究と共通しており、親和性は高いと読む。画像や音声などの知覚情報を加味した対話システムの研究なども視野に入れる。
さまざまな実績を上げているが、自分を含めた国内の研究者が世界で存在感を発揮するには、研究者同士の意見交換が不可欠と考える。「個人の能力には限界がある。いろいろな人を巻き込んで国内のコミュニティーを活性化させたい」と強調する。
2年間、研究員として働いたNTTを辞め、再び東大に戻ってきたのも学生の可能性を信じているからだ。教育した学生が戦力になれば、1人で研究するよりも研究の幅が広がるとみる。
教育した学生が研究者にならなかったとしても「AIや深層学習の技術に理解のある人材が官民に増える」と前向きにとらえる。
チームプレーを重視する根底には高校生クイズの優勝経験がある。牛久は「うちのチームは1人が突出していたわけではなく、3人の得意分野が分かれ、うまくかみ合っていた。誰一人欠けても優勝できなかった」と断言する。戦う舞台をクイズからAIに変え、国内の研究者と手を取り合い、世界のトップを狙っている。=敬称略
(科学技術部 大越優樹)
[日経産業新聞 2018年1月25日付]
関連企業・業界