0
会員になると、いいね!でマイページに保存できます。
情報化社会の進展により、さまざまな統計データに触れる機会が増えている。ニュースで統計グラフを見かけることもあれば、職場で「購買データに基づく営業戦略」を上司から指示されることもあるだろう。しかし、我々はそれらのデータを十分に生かしきれているだろうか。最近では「ビッグデータ」という言葉が話題となり、ビジネスなどに活用する動きが盛んだが、『統計学が最強の学問である』(ダイヤモンド社)の著者で企業コンサルティングにも関わる西内啓氏によると、巨額の投資をして得たビッグデータが「ビッグなだけのゴミ」だということもしばしばあるという。身近でありながらその実態や活用法を問われれば、ほとんどの人が明確に答えることができない統計。同書が10万部を突破し、注目を集める新進気鋭の統計学者・西内氏にインタビューし、日本社会が統計学を生かしきれていない現状、そして統計学が「最強」である理由を聞いた。
「ビッグデータ狂騒曲」と統計リテラシー
──『統計学が最強の学問である』は、普段我々が目にする統計データの歴史や成り立ち、方法論などを丁寧に紹介しながら、統計を活用するためにはどのようなことを心掛ければいいのかを解説した入門書です。ところで、冒頭にも記されているとおり、本著は西内さん自身が統計学的アルゴリズムを導入した定額課金型コンテンツ配信プラットフォーム「cakes(ケイクス)」にて連載した原稿をまとめたものだと聞いています。
『統計学が最強の学問である』
西内啓氏(以下、西内氏)■はい。ベイズ統計学を活用して作られているcakesでベイズ統計学の解説をしていたので、書きすぎてサイトの設計がバレちゃうんじゃないかとヒヤヒヤしていました(笑)
──自身が統計学を導入したサイトに統計学の連載するのは変な感じでしょうね(笑)。具体的にどのようなアルゴリズムを採用したのですか?
西内氏■cakesを運営する
ピースオブケイクのCEO・加藤貞顕さんが常々おっしゃっているのが、「インターネットは売り場が狭い」ということです。例えば読む価値のある有益なコンテンツが1,000個あっても、画面上に表示できるのは、せいぜい10個程度で他は埋もれてしまう。それを解決するために、ユーザー個々人の履歴を解析し、その人にパーソナライズされたお勧め記事を表示できるようにしました。また、amazonのように「この記事を読んだ人は、こんな記事を読んでいる」という他ユーザーの行動から推定された結果も提供するようにしています。クリックしやすい記事に優先順位をつけてあげることで、最適にサイトを利用できるようにしたんです。
──例え自覚していなくても、我々の行動は統計学によって最適化される世の中になっているということだと思います。そんな中、最近、「ビッグデータ」という言葉をよく聞くのですが、西内さんはご著書のなかで、必ずしもビッグなデータが解析に必要なわけではないと指摘されています。
西内氏■もちろん、ビッグデータが有効に活用される事例もあるのですが、「この解析をするために、本当にプロ野球のホームラン王を雇えるくらい多額の投資が必要なのか」と思ってしまうケースもたくさんあります。
──どういうことでしょうか?
西内氏■例えば100万人の顧客データから男女割合を調べる場合、ランダムにサンプルを1,000人集めて調べても、標準誤差は3%ほど。8,000人なら1%ほどで、その先は誤差にほとんど変化がありません。確かに10万人すべてのデータを解析した方が精度は高いですが、それくらいの差しかないもののために高性能の機械を導入する姿勢には疑問を感じます。
──なるほど。では、なぜ世間はビッグデータ、ビッグデータと繰り返し騒いでいるのでしょうか?
西内氏■2000年ごろから企業の扱う情報が本格的にデジタル化し、当時の売り込み文句の1つとして、「今からデータをためておけば、いろいろなことが分かるようになりますよ」というものがあったんです。それが最近になって、機械を売る側も買う側も、「そう言えばあれってどうなったんだろう?」と思い出しはじめた(笑)。そこで生み出されたバズワードが「ビッグデータ」なんだと思います。
業者はデータを扱うことに関してはプロなので、その時流に乗って、「解析の性能が上がりました」と言って売りにくる。ただ、彼らは企業の業務プロセスについては素人のため、具体的な活用法まで示しません。「高額の投資をして機械を導入したんですが、何かに利用できませんか」と聞いてくる経営者がいて、ビックリしたこともあります。
──何に使えるか分からないのに投資するなんて、ちょっと考えられないことですね。
西内氏■そうですね。あと、特にご年配の方に多いのが、先ほども指摘しました「全数調査」への信仰です。「これだけのサンプルをとって、誤差はこれくらいです」と説明してもいまいちピンとこないけれど、「すべてのデータを解析したら、こういう結果でした」と言えば納得してもらえるケースが多い。
もちろん、その1%の誤差が積もりに積もって最終的に何百億もの売上げの差が出てしまうのならば、そこへの投資を惜しまない方がいいですが、その見極めができていません。ビッグデータを扱った方がいい場合と、そうでない場合を見定める統計リテラシーがなければ言葉に踊らされるだけの結果に終わってしまうでしょう。そこらへんの問題をクリアにしたいというモチベーションで、本著を執筆したという側面もあるんです。もともと、本著を『ビッグデータに騙されないために』というような題名にしようとしたくらいですから(笑)。
関連タグ