- 会員限定
- 2013/02/26 掲載
【西内啓氏インタビュー】日本が「統計先進国」に返り咲くための処方箋
『統計学が最強の学問である』著者 西内啓氏
「ビッグデータ狂騒曲」と統計リテラシー
西内啓氏(以下、西内氏)■はい。ベイズ統計学を活用して作られているcakesでベイズ統計学の解説をしていたので、書きすぎてサイトの設計がバレちゃうんじゃないかとヒヤヒヤしていました(笑)
──自身が統計学を導入したサイトに統計学の連載するのは変な感じでしょうね(笑)。具体的にどのようなアルゴリズムを採用したのですか?
西内氏■cakesを運営するピースオブケイクのCEO・加藤貞顕さんが常々おっしゃっているのが、「インターネットは売り場が狭い」ということです。例えば読む価値のある有益なコンテンツが1,000個あっても、画面上に表示できるのは、せいぜい10個程度で他は埋もれてしまう。それを解決するために、ユーザー個々人の履歴を解析し、その人にパーソナライズされたお勧め記事を表示できるようにしました。また、amazonのように「この記事を読んだ人は、こんな記事を読んでいる」という他ユーザーの行動から推定された結果も提供するようにしています。クリックしやすい記事に優先順位をつけてあげることで、最適にサイトを利用できるようにしたんです。
──例え自覚していなくても、我々の行動は統計学によって最適化される世の中になっているということだと思います。そんな中、最近、「ビッグデータ」という言葉をよく聞くのですが、西内さんはご著書のなかで、必ずしもビッグなデータが解析に必要なわけではないと指摘されています。
西内氏■もちろん、ビッグデータが有効に活用される事例もあるのですが、「この解析をするために、本当にプロ野球のホームラン王を雇えるくらい多額の投資が必要なのか」と思ってしまうケースもたくさんあります。
──どういうことでしょうか?
西内氏■例えば100万人の顧客データから男女割合を調べる場合、ランダムにサンプルを1,000人集めて調べても、標準誤差は3%ほど。8,000人なら1%ほどで、その先は誤差にほとんど変化がありません。確かに10万人すべてのデータを解析した方が精度は高いですが、それくらいの差しかないもののために高性能の機械を導入する姿勢には疑問を感じます。
西内氏■2000年ごろから企業の扱う情報が本格的にデジタル化し、当時の売り込み文句の1つとして、「今からデータをためておけば、いろいろなことが分かるようになりますよ」というものがあったんです。それが最近になって、機械を売る側も買う側も、「そう言えばあれってどうなったんだろう?」と思い出しはじめた(笑)。そこで生み出されたバズワードが「ビッグデータ」なんだと思います。
業者はデータを扱うことに関してはプロなので、その時流に乗って、「解析の性能が上がりました」と言って売りにくる。ただ、彼らは企業の業務プロセスについては素人のため、具体的な活用法まで示しません。「高額の投資をして機械を導入したんですが、何かに利用できませんか」と聞いてくる経営者がいて、ビックリしたこともあります。
──何に使えるか分からないのに投資するなんて、ちょっと考えられないことですね。
西内氏■そうですね。あと、特にご年配の方に多いのが、先ほども指摘しました「全数調査」への信仰です。「これだけのサンプルをとって、誤差はこれくらいです」と説明してもいまいちピンとこないけれど、「すべてのデータを解析したら、こういう結果でした」と言えば納得してもらえるケースが多い。
もちろん、その1%の誤差が積もりに積もって最終的に何百億もの売上げの差が出てしまうのならば、そこへの投資を惜しまない方がいいですが、その見極めができていません。ビッグデータを扱った方がいい場合と、そうでない場合を見定める統計リテラシーがなければ言葉に踊らされるだけの結果に終わってしまうでしょう。そこらへんの問題をクリアにしたいというモチベーションで、本著を執筆したという側面もあるんです。もともと、本著を『ビッグデータに騙されないために』というような題名にしようとしたくらいですから(笑)。
関連コンテンツ
関連コンテンツ
PR
PR
PR