日本経済新聞社

記事利用について
印刷 印刷

1000人受講、大阪ガス「ビッグデータ研修」を追体験

2014/9/4 7:00
ニュースソース
日本経済新聞 電子版
日経情報ストラテジー
 ビッグデータ分析に力を入れる多くの企業が関心を寄せる社内研修がある。大阪ガスの「データ分析講習」だ。一般社員を対象としており、これまでに開催された約40回の研修には、グループ社員を含む、のべ1000人以上が参加。2日間にわたってデータリテラシーを磨く。研修では特にデータ分析を実行する「前後」の工程に注目。分析の「設計図」を描き、利用するデータを事前にチェックする大切さを学ぶ。本記事では、研修で使われた240枚のスライドから厳選した8枚を紹介し、研修を追体験できるようにした。

写真1 大阪ガス「データ分析講習」でのグループワークの様子。概念図を描いてみる

写真1 大阪ガス「データ分析講習」でのグループワークの様子。概念図を描いてみる

大阪ガスの「データ分析講習」の目的は大きく2つある。1つは、データから誤った判断を下さないようにすること。もう1つは、他人が実行したデータ分析の結果を鵜呑みにしないようにすることだ。

データ分析は経営の意思決定に重要な役割を果たすが、一方で用いるデータや分析の条件、手法が少し変わるだけで結果が大きく変わる。意思決定を誤るリスクが付きまとうというわけだ。そこで大阪ガスは、社員全員が"正しい"データ分析を理解しておく必要があると考え、データリテラシー研修に費用と時間をかける。

何人ものデータサイエンティスト(データ分析官)を抱える大阪ガスは、データ分析の歴史が長く、勘所をつかんでいる。彼ら彼女らの経験を体系化し、一般社員もデータ分析を仕事に生かせるように社内教育に取り組んでいるというわけだ。

■データ分析の「作法」を身に付けてもらう

この研修は、よくあるエクセル教育などとは根本的に違う。表計算ソフトの使い方といった学習カリキュラムは別に設けており、この研修では力点を置かない。そうではなく、先述の2つの目的に沿って、実際にデータ分析の「実行前に踏むべきステップ」と「実行後の注意点」を理解してもらい、確実に遂行できる習慣を社員に身に付けてもらう(図1)。

図1 データリテラシーを高めるための「データ分析演習」の概要。分析実行の前後を知る

図1 データリテラシーを高めるための「データ分析演習」の概要。分析実行の前後を知る

というのも、データ分析は各自各様で、絶対的な正解が存在しない。実行した人によって、やり方も結果も違ってくる。そうした特性を踏まえ、大阪ガスではデータ分析の結果ではなく「プロセス」に注目した。研修を推進する、情報通信部企画管理チームの河村真一副課長は「データ分析はプロセスでしか正しさを評価できない。だから社員にも正しいプロセスを学んでもらう」と話す。河村副課長は大阪ガスのデータ分析集団である「ビジネスアナリシスセンター」を兼務しており、データ分析のプロセスの大切さを熟知している。その知見をこの研修にふんだんに盛り込んだ。

大阪ガスが定義する分析のプロセスを知るのに、特別な統計知識や数学力は必要ない。約30人の受講者とともに5月23日と29日の2日間、記者も研修を体験したが、難しい話は一切なかった。

研修は分析前に焦点を当てた前半と分析後の後半に分かれる。本記事では約240枚あるスライドの中から抜粋した8枚を見ながら、丸2日の白熱した研修を、グループワークを含めて追体験できるようにした(冒頭の写真1)。順に見ていこう。

■分析の「概念図」を描く手順を知る

研修では最初に、分析の設計図に相当する「概念図」を描く。手順は6つから成る(スライド1)。概念図の作成は「分析のロジックを見える化する作業だ。独り善がりにならず、他人に何を分析しようとしているのかを説明できるようにする」(河村副課長)。

スライド1(左)とスライド2

スライド1(左)とスライド2

スライド3

スライド3

具体的にはデータ分析で扱う「問題領域」を設定し、何をもって良い施策とするかの「評価軸」を事前に決める。そして何を考慮して評価するのか、その「要因」を挙げて線でつないでいく。1つの概念図にまとめるのは、評価軸と要因の抜け・漏れを無くすためだ。受講者にとって概念図の作成は初体験であり、ここで面食らう人はいた。ただし、受講後のアンケートでは「概念図作りが仕事に役立った」との声が多く聞かれた。

研修では個人演習として、与えられた課題を分析するため、付箋に要因を書き出し、設定した評価軸ごとに要因をグルーピングして概念図を作る(スライド2)。研修終盤のグループワークでは、個人演習の内容をメンバー同士で持ち寄り、自分が描いた概念図に検討すべき要因の抜け・漏れがないかを確認し合う。この時間が研修では最も盛り上がる。

要因を決定する際に大切になるのが、データの重要度と入手(推測)可能かどうかだ(スライド3)。この2軸でどの要因を選ぶかを吟味する。

続いて、データの事前チェックである。データ分析に入る前に、データの出所や傾向など4つの観点で確認する(スライド4)。データに欠損がある場合はクレンジングしなければならない(スライド5)。そのための手順は3つある。欠損値は埋められるに越したことはないが、不可能な場合は取り除く必要がある。

スライド4(左)とスライド5

スライド4(左)とスライド5

ただし、データ量が減れば、そもそも取り扱うデータ全体が信頼できなくなる可能性が出てくる。研修ではノートパソコンを使って、エクセルデータの中から欠損値を見つける演習も行った。エクセルに慣れた人には、特に難しくない様子だ。

大量のデータを集計して結果を示す場合、「代表値」を選ぶことがある(写真2)。平均値や中央値、最頻値などが、よくある代表値だ。これらは典型的な分析の手法ではあるが、ここでも注意が必要である。

写真2 今年5月の研修には約30人が参加した

写真2 今年5月の研修には約30人が参加した

スライド6

スライド6


適切な代表値でも、データ全体の「1つの特徴にすぎない」ことを理解したうえで使うべきである。生データに比べれば、多くの情報が失われている。万能な代表値など存在しない。例えば平均値は、母集団に対して非常に小さい集団の平均値を算出しても、全体の傾向を正しく伝えていないことがある(スライド6)。

■思い込みによるエラーを防ぐ

2日目は、分析実行後の評価と解釈、結果の伝え方についてだ。人は自分の仮説に合致しそうなデータを探してしまいがちで、仮説に合う結果が出ると、つい鵜呑みにしてしまう。そこで一見関係なさそうな要因でも分析するなど、別な角度からの検証を怠らない。

結果を伝える場合、グラフの見せ方や言葉使いで誤解を招くことがある(スライド7)。「単位」や「目盛り」など結果の表現には気を付けなければならない。

最後に、自分が結果を報告される側になったときに「ごまかされない」コツを教える(スライド8)。報告者は結論に誘導したがっている場合がある。結論を鵜呑みにしないため、データのサンプリングに偏りはないか、アンケート結果ならばどんな質問で聞いたのか、不都合な数値が隠されていないかなどを見る癖を付ける。こうした突っ込みができるかは、データ分析のプロセスを正しく理解できているかにかかっている。

データリテラシー研修で得た知識を社員は現場に持ち帰り、仕事に生かしている。例えば、業務用ガス機器の制御ロジックを開発している部署では、データ分析結果を上司に説明するのがスムーズになり、改善スピードが上がった。ガス導管の保全業務の現場では、事前に例外データを仕分けるようにしたところ、手戻りが減るなどの効果が出始めている。

スライド7(左)とスライド8

スライド7(左)とスライド8

(日経情報ストラテジー 川又英紀)

[日経情報ストラテジー2014年8月号の記事を再構成]


本サービスに関する知的財産権その他一切の権利は、日本経済新聞社またはその情報提供者に帰属します。また、本サービスに掲載の記事・写真等の無断複製・転載を禁じます。