2018年11月21日(水)

プレスリリース

東大とドワンゴなど、ビッグデータのクラスタリングを少ないメモリー容量で実行できる手法を開発

2017/9/12 14:55
保存
共有
印刷
その他

発表日:2017年9月12日

ビッグデータのクラスタリングがパソコンで可能に

少ないメモリー容量でも高速に処理できる手法を開発

大学共同利用機関法人 情報・システム研究機構 国立情報学研究所(NII)コンテンツ科学研究系特任研究員 松井 勇佑(まつい・ゆうすけ)、株式会社ドワンゴ メディアヴィレッジ研究開発グループ グループリーダー 大垣 慶介(おおがき・けいすけ)、国立大学法人 東京大学 大学院情報理工学系研究科 電子情報学専攻 教授 相澤 清晴(あいざわ・きよはる)、同 准教授 山崎 俊彦(やまさき・としひこ)の研究グループは、データ処理の基本操作であるクラスタリングを、10億個程度のビッグデータに対して、高速で、かつ、少ないメモリー容量で実行できる実用性の高い手法を開発しました。これにより、例えばソーシャルメディアの膨大な画像データを一般的なパソコンでも手軽に処理することが可能となります。一般の技術者や研究者にもビッグデータの扱いが容易になるため、深層学習を応用した人工知能(AI)の開発をはじめとする広い分野での活用が期待されます。

本手法では、データを圧縮した状態でクラスタリングを行うため、従来手法よりも少ないメモリー容量で処理が可能になりました。さらに、似たデータを集めたグループの「平均」を効率良く計算する新技術を考案したことで、処理の高速化を実現しました。クラスタリングの基本的手法の一つであるk平均法に対して、精度は劣るものの、10~1000倍程度高速化し、100~4000倍程度の省メモリーとなります。

本研究成果は、マルチメディア分野のトップ国際会議「ACM International Conference on Multimedia 2017」(10月23日~27日、米カリフォルニア州マウンテンビュー)で発表されます。また、論文(PQk-means: Billion-scale Clustering for Product-quantized Codes)は9月14日に計算機科学などの論文を保存・公開するウェブサイト「arXiv(アーカイブ)」(https://arxiv.org/)に先行掲載されます。

《本手法のポイント》

[1]データを圧縮して処理することで省メモリーを実現

[2]似たデータを集めたグループの「平均」を効率良く計算する新技術を考案して処理を高速化

[3]これにより、一般的な能力のパソコンでもビッグデータのクラスタリング処理が可能に

本研究成果の一部は、以下の事業・研究領域・研究課題によって得られました。

 国立研究開発法人 科学技術振興機構(JST)戦略的創造研究推進事業 ACT-I

 研究領域:「情報と未来」※(研究統括:後藤真孝 産業技術総合研究所 首席研究員)

 研究課題:「圧縮線形代数:データ圧縮による省メモリ高速大規模行列演算」(グラント番号:JPMJPR16UO)

 研究者:松井勇佑

 ※文部科学省の人工知能/ビッグデータ/IoT/サイバーセキュリティ統合プロジェクト(AIPプロジェクト)の一環として運営

*リリース詳細は添付の関連資料を参照

リリース本文中の「関連資料」は、こちらのURLからご覧ください。

リリース詳細

http://release.nikkei.co.jp/attach_file/0456895_01.pdf

保存
共有
印刷
その他

電子版トップ速報トップ



[PR]

日本経済新聞社の関連サイト

日経IDの関連サイト

日本経済新聞 関連情報