/

NTT、ビッグデータ解析で世界最速 1億の友人関係3分で

NTTは13日、ビッグデータ(短時間に大量生成される多様なデータ)のうち、グラフ構造を持つデータを従来の数十倍のスピードで解析できる技術を開発したと発表した。グラフ構造データとは、ツイッターなどのソーシャルメディアでヒト、モノ、場所などの情報がグラフ状に結びついた形式のデータを指す。

NTTが開発したビッグデータ解析ソフト。大量データを瞬時に分類できる

NTTが開発したビッグデータ解析ソフト。大量データを瞬時に分類できる

例えば約1億人分のSNS(交流サイト)の友人関係なら、およそ3分で解析できる。従来の技術では4~6時間程度かかっており、同社によると「世界最速」という。同技術はNTTソフトウェアイノベーションセンタが開発した。

新しい技術のポイントは2点ある。1つめはデータを類似したグループごとに分類する「クラスタ分析技術」。13日の「NTT R&Dフォーラム2013」の説明会では、ランダムに収集した画像およそ1500万枚を、画像のタグ情報を元に解析するデモを実施した。1500万枚の解析にかかった時間は8秒程度で、約10万~100万種類のクラスタ(グループ)に分類できるという。

同じデータを、ベルギーのルーヴァン・カトリック大学を中心に開発された従来のアルゴリズムで解析すると、およそ15分かかる。従来はランダムにデータにアクセスして、すべてのデータに複数回の計算を行っていたが、新技術ではまず全データの計算回数を推定する。そのあと、計算回数が少ない順にデータにアクセスし、類似データを集約。類似データの重複計算を省くことで総計算量を大幅に削減した結果、約20~100倍もの高速化が可能になった。

世界最速の「クラスタ分析技術」開発を担当した塩川浩昭氏

この技術を活用すれば「時間がかかりすぎて諦めていた大容量データの解析が可能になる」とNTTソフトウェアイノベーションセンタ・分散処理基盤技術プロジェクトの塩川浩昭氏は語る。

2つめが、「パーソナライズドページランク技術」だ。クラスタごとに分類されたデータの中から特定のノード(集合)を指定して重み付けし、関係性を解析。そのノードへの影響が大きい重要なノードを決定する。同技術についても、計算処理時のデータの偏りをコンパクト化することで数十倍の高速化を実現した。

政治家らの関係性を解析し、円の大きさと色で表現したもの

デモでは3000人の政治家のウィキペディア記事を元に、安倍晋三総理大臣ら政治家の関係性を解析した。影響力を円の大きさ、所属している政党などの属性を色で表現したところ、「安倍氏と麻生太郎氏はともに影響力が大きい」「小沢一郎氏の影響力は大きいが、安倍氏、麻生氏とは属性が異なる」などの解析結果が表示された。開発を担当した分散処理基盤技術プロジェクト主幹研究員の鬼塚真氏は「例えばある有名ブロガーに影響を与えているのは誰か知りたい、といった場合などに活用できる」と解説する。

これらの技術の実用化に向け、国内のある大学と電子カルテデータの解析に向けた議論を始めた。「この技術を使ってどんなタイプの人にどの治療が効果があるか解析できれば、より効果的な医療が望めるはずだ」(鬼塚氏)

ビッグデータの解析では、高速処理のニーズが高まっている。世界最速を達成した塩川氏らは、「人間が生み出すデータは日々多様化し、大容量化している。より高度な解析にも対応できるよう注力していきたい」と意気込みを見せた。

(電子報道部 富谷瑠美)

すべての記事が読み放題
まずは無料体験(初回1カ月)

セレクション

トレンドウオッチ

新着

ビジネス

暮らし

ゆとり

新着

ビジネス

暮らし

ゆとり

新着

ビジネス

暮らし

ゆとり

フォローする
有料会員の方のみご利用になれます。気になる連載・コラム・キーワードをフォローすると、「Myニュース」でまとめよみができます。
新規会員登録ログイン
記事を保存する
有料会員の方のみご利用になれます。保存した記事はスマホやタブレットでもご覧いただけます。
新規会員登録ログイン