リアルタイム分析、5兆円市場に IoT普及で27年にも

リアルタイムのデータを分析する「ストリーム処理」を手掛ける米コンフルエント(Confluent)は2021年4月、2億5000万ドルを調達し、企業価値が45億ドルになった。その一方で、新規株式公開(IPO)もひそかに申請した。同社は米有力ベンチャーキャピタル(VC)のセコイア・キャピタルから出資を受けている。
コンフルエントはビジネスSNS(交流サイト)最大手、米リンクトインのオープンソースのフレームワーク「アパッチ・カフカ(Apache Kafka)」の開発チームが創業した。ストリーム処理の最大手の一角に成長し、この市場が盛り上がりつつあるところでIPOを申請した。
ストリーム処理はデータを保存してバッチ処理で遡って分析するのではなく、データを捉えた「その場で」分析する。従来のバッチ処理では、イベントに即座に対応しなくてはならない企業が機を逸する可能性があった。
例えば、不正防止について考えてみよう。ストリーム処理を使えば、クレジットカードの取引が完了した後にデータを分析するのではなく、カードが通された時点で疑わしい行為を見つけることができる。同様に、工場ではリアルタイムの「IoT」データを分析することで、問題がある機械にすぐに気付き、修理できる。
IoTの利用が拡大しリアルタイムのデータソースが増えるなか、テック大手やクラウドサービス各社は企業のデータ取り込みや処理のあらゆるニーズに対応するため、ストリーム処理や分析機能の開発に取り組んでいる。

今回のリポートでは、企業のCIOやデータサイエンス部門が知っておくべきストリーム処理の最前線について取り上げる。
知っておくべきこと:
・ストリーム処理技術は強力なオープンソース・エコシステム(生態系)の恩恵を受けている。オープンソースのプロジェクト「アパッチ」の傘下にはいくつかの分散ストリーミングプラットフォームがあり、開発者がストリーム分析を業務フローに簡単に組み込めるようにしている。広く使われているアパッチのストリーム処理サービスには、カフカや「サムザ(Samza)」「ストーム(Storm)」「ヘロン(Heron)」「スパーク(Spark)」「フリンク(Flink)」などがある。多くはリンクトインや米インテル、米ツイッター、米データブリックスなどの大手テック企業が開発したか、開発に貢献した。
・ハードディスクを使わずにメモリー上でデータを処理する「インメモリー・コンピューティング」技術のおかげでストリーミング分析が可能になっている。インメモリー・コンピューティングはデータを高速で保存して処理するために、複数のコンピューターのRAM(随時書き込み読み出しメモリー)を並列分散型につなぎ、分析速度を従来のメモリーの数千倍にしている。インメモリー・コンピューティングのこうした強みにより、ストリーム分析は可能になっている。インメモリー・コンピューティングを活用したストリーム分析を手掛けているのは米ギガスペーシズ(GigaSpaces)、米グリッドゲイン(GridGain)、米ヘーゼルキャスト(Hazelcast)などだ。
・各社はデータストリームのクエリ(処理要求)を実行するため、ストリーミングSQLの開発に取り組んでいる。SQL(構造化問い合わせ言語)はリレーショナル(表形式の)データベースのデータ照会言語として広く使われているが、各社は今やリアルタイムのデータをやり取りするために「ストリーミングSQL」の開発を進めている。米イベンテーダー(Eventador、20年10~12月期にクラウドサービスの米クラウデラに買収された)や米ストリーム(Striim)などがこれに取り組んでいる。
・コンフルエントは新たなイベントストリーミング・データベースのアーキテクチャーを開発した。コンフルエントは19年10~12月期、イベントストリーミング・データベース「ksqlDB」を投入し、新たなカテゴリーのインフラを生み出した。ksqlDBには開発者になじみのある従来のデータベースに似た機能が組み込まれているため、開発者はストリーミングデータを使ったアプリを簡単に開発できる。
・機械学習などの人工知能(AI)技術を活用してストリーミング分析ができるようになる可能性がある。例えば、データ統合を手掛ける米インフォマティカ(Informatica)のAIエンジン「クレア(CLAIRE)」は、入ってくるデータの構造を自動で認識して解析する。同社は20年7~9月期、クレアの機能を強化するためにAIスタートアップの米グリーンベイ・テクノロジーズ(GreenBay Technologies)を買収した。
・クラウド大手やテック大手は独自のストリーム処理機能を開発している。米アマゾン・ドット・コムの「キネシス(Kinesis)」から米IBMの「イベントストリーム(Event Streams)」、米マイクロソフトの「ストリーム・アナリティクス(Stream Analytics)」に至るまで、クラウド大手の多くが既に企業のストリーミングのニーズに対応している。このため、企業はストリーム処理でもクラウドサービスと同じ業者を選べる。
次に何が起こるか?
・ベンダー各社はAIとストリーミング処理を一元化したサービスを提供しようとしており、テクノロジーがさらに統合される可能性がある。現時点ではストリーミングのインフラを構築するには、企業は様々なベンダーのツールを統合しなくてはならない。ベンダー各社は他社よりも優位に立つため、より多くの機能を1つのプラットフォームにまとめようとしている。
例えば、ヘーゼルキャストはストリーム処理プラットフォーム「ヘーゼルキャスト・ジェット(Hazelcast Jet)」を投入し、ストリーム処理の機能を再三にわたって強化している。ヘーゼルキャスト・ジェットにはインメモリー技術「ヘーゼルキャストIMDG(インメモリー・データグリッド)」が組み込まれている。
一方、ストリームはログベースのチェンジデータキャプチャー(CDC)など、一連のストリーム機能を開発・展開している。様々なソースやターゲット、ストリーミングSQL、インメモリー・コンピューティング、エッジとクラウドの統合などにも対応している。
関連リンク
関連企業・業界