1位は渡辺麻友か AKB総選挙をデータで予測

(2/3ページ)
2014/6/5 7:00
保存
共有
印刷
その他

■SNSやテレビ出演などのデータを基に回帰分析

予測に使ったのは、ブログやTwitter(ツイッター)、匿名掲示板「2ちゃんねる」などに書き込まれたメンバー名の件数および評判、テレビ出演、テレビCM放映などのデータ。クチコミ系のデータはホットリンク、テレビ関連はエム・データ(東京都港区)から、過去3年プラス今年の選挙前約70日分の提供を受けた。そして前年の各種データが、前年の各メンバーの得票数とどのような関係があったのか、重回帰分析して導き出し、予測モデルを構築した。

予測モデルを極めて単純化して説明しておこう。まずは、メンバーそれぞれに対するブログの投稿件数やSNS(ソーシャル・ネットワーキング・サービス)の書き込み、テレビへの出演時間、昨年の最終得票数などをデータとして集計する。

・メンバーAに関する昨年のブログ投稿3000件、Twitter投稿1万件、テレビ露出1時間、昨年の最終得票4万票
・メンバーBに関する昨年のブログ投稿5000件、Twitter投稿7000件、テレビ露出2時間、昨年の最終得票7万票

このように、ブログ件数およびテレビ露出と得票数との間に強い相関がみられる場合は、この2つを変数として採用。「得票数はブログ件数の10倍+テレビ露出時間×1万」という予測モデルを立てる。

そして今年のメンバーCのブログ件数が6000件、テレビ露出が2時間なら、予測モデルから8万票を獲ると予測。この予測票を上から並べることで順位を予測した。

ルグランは2年前の選抜総選挙でも同様の手法で予測し、上位16人中15人の顔ぶれを的中させる精度の高い予測モデルを構築した。2年前の予測モデルは以下の計算式だった。

得票数≒2.75×ブログ投稿数+4.47×CM登場分数

この予測式は、1に近いほど相関関係が強いことを示す「R2乗値」が0.98という優れたモデルだった。しかし2年前の予測式は、毎年通用する「普遍の方程式」ではなかった。昨年のデータを入れると、昨年の最終結果とかなりズレが生じてしまう。

■得票の鍵は「2ちゃんねる」への投稿数

そこで同社は、より精度の高いモデルを探し当てようと、2年前は変数として採用しなかったTwitter投稿件数や2ちゃんねるの書き込み件数なども当てはめて、30以上の予測モデルを構築。その中から最有力候補として選んだのが、以下の予測式だ。

得票数≒1万5420+0.37×2ちゃんねる投稿数+0.76×CM登場分数

なんと、得票のカギを握るのは2ちゃんねるへの投稿数だ。2ちゃんねるに名前が書きこまれた件数が多いメンバーほど票が伸び、CMに出演する人気メンバーはさらに上積みが見込める、という計算式である。

意外に思われるかもしれないが、2ちゃんねるのニュース板ではニュースソースがあるものに対してスレッドが立つので、メディアで記事化されやすいメンバーは2ちゃんねるでも露出が多くなる。ちなみに2014年2~4月にメンバーが新聞記事に登場した件数を「日経テレコン」で調べたところ、渡辺麻友120件、指原102件。このメディア露出差が今年の予測に反映されている格好だ。

  • 前へ
  • 1
  • 2
  • 3
  • 次へ
保存
共有
印刷
その他

日経BPの関連記事

関連企業・業界 日経会社情報DIGITAL

電子版トップ



[PR]