会員限定
2013/02/26 掲載

【西内啓氏インタビュー】日本が「統計先進国」に返り咲くための処方箋

『統計学が最強の学問である』著者　西内啓氏

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

データ戦略

|

タグをもっとみる

情報化社会の進展により、さまざまな統計データに触れる機会が増えている。ニュースで統計グラフを見かけることもあれば、職場で「購買データに基づく営業戦略」を上司から指示されることもあるだろう。しかし、我々はそれらのデータを十分に生かしきれているだろうか。最近では「ビッグデータ」という言葉が話題となり、ビジネスなどに活用する動きが盛んだが、『統計学が最強の学問である』（ダイヤモンド社）の著者で企業コンサルティングにも関わる西内啓氏によると、巨額の投資をして得たビッグデータが「ビッグなだけのゴミ」だということもしばしばあるという。身近でありながらその実態や活用法を問われれば、ほとんどの人が明確に答えることができない統計。同書が10万部を突破し、注目を集める新進気鋭の統計学者・西内氏にインタビューし、日本社会が統計学を生かしきれていない現状、そして統計学が「最強」である理由を聞いた。

「ビッグデータ狂騒曲」と統計リテラシー

関連記事

▲ 閉じる ▼ すべて表示

──『統計学が最強の学問である』は、普段我々が目にする統計データの歴史や成り立ち、方法論などを丁寧に紹介しながら、統計を活用するためにはどのようなことを心掛ければいいのかを解説した入門書です。ところで、冒頭にも記されているとおり、本著は西内さん自身が統計学的アルゴリズムを導入した定額課金型コンテンツ配信プラットフォーム「cakes（ケイクス）」にて連載した原稿をまとめたものだと聞いています。

『統計学が最強の学問である』

　西内啓氏（以下、西内氏）■はい。ベイズ統計学を活用して作られているcakesでベイズ統計学の解説をしていたので、書きすぎてサイトの設計がバレちゃうんじゃないかとヒヤヒヤしていました（笑）

──自身が統計学を導入したサイトに統計学の連載するのは変な感じでしょうね（笑）。具体的にどのようなアルゴリズムを採用したのですか？

　西内氏■cakesを運営するピースオブケイクのCEO・加藤貞顕さんが常々おっしゃっているのが、「インターネットは売り場が狭い」ということです。例えば読む価値のある有益なコンテンツが1,000個あっても、画面上に表示できるのは、せいぜい10個程度で他は埋もれてしまう。それを解決するために、ユーザー個々人の履歴を解析し、その人にパーソナライズされたお勧め記事を表示できるようにしました。また、amazonのように「この記事を読んだ人は、こんな記事を読んでいる」という他ユーザーの行動から推定された結果も提供するようにしています。クリックしやすい記事に優先順位をつけてあげることで、最適にサイトを利用できるようにしたんです。

──例え自覚していなくても、我々の行動は統計学によって最適化される世の中になっているということだと思います。そんな中、最近、「ビッグデータ」という言葉をよく聞くのですが、西内さんはご著書のなかで、必ずしもビッグなデータが解析に必要なわけではないと指摘されています。

　西内氏■もちろん、ビッグデータが有効に活用される事例もあるのですが、「この解析をするために、本当にプロ野球のホームラン王を雇えるくらい多額の投資が必要なのか」と思ってしまうケースもたくさんあります。

──どういうことでしょうか？

　西内氏■例えば100万人の顧客データから男女割合を調べる場合、ランダムにサンプルを1,000人集めて調べても、標準誤差は3％ほど。8,000人なら1％ほどで、その先は誤差にほとんど変化がありません。確かに10万人すべてのデータを解析した方が精度は高いですが、それくらいの差しかないもののために高性能の機械を導入する姿勢には疑問を感じます。

ビッグデータ関連記事

──なるほど。では、なぜ世間はビッグデータ、ビッグデータと繰り返し騒いでいるのでしょうか？

　西内氏■2000年ごろから企業の扱う情報が本格的にデジタル化し、当時の売り込み文句の1つとして、「今からデータをためておけば、いろいろなことが分かるようになりますよ」というものがあったんです。それが最近になって、機械を売る側も買う側も、「そう言えばあれってどうなったんだろう？」と思い出しはじめた（笑）。そこで生み出されたバズワードが「ビッグデータ」なんだと思います。

　業者はデータを扱うことに関してはプロなので、その時流に乗って、「解析の性能が上がりました」と言って売りにくる。ただ、彼らは企業の業務プロセスについては素人のため、具体的な活用法まで示しません。「高額の投資をして機械を導入したんですが、何かに利用できませんか」と聞いてくる経営者がいて、ビックリしたこともあります。

──何に使えるか分からないのに投資するなんて、ちょっと考えられないことですね。

　西内氏■そうですね。あと、特にご年配の方に多いのが、先ほども指摘しました「全数調査」への信仰です。「これだけのサンプルをとって、誤差はこれくらいです」と説明してもいまいちピンとこないけれど、「すべてのデータを解析したら、こういう結果でした」と言えば納得してもらえるケースが多い。

　もちろん、その1％の誤差が積もりに積もって最終的に何百億もの売上げの差が出てしまうのならば、そこへの投資を惜しまない方がいいですが、その見極めができていません。ビッグデータを扱った方がいい場合と、そうでない場合を見定める統計リテラシーがなければ言葉に踊らされるだけの結果に終わってしまうでしょう。そこらへんの問題をクリアにしたいというモチベーションで、本著を執筆したという側面もあるんです。もともと、本著を『ビッグデータに騙されないために』というような題名にしようとしたくらいですから（笑）。

【西内啓氏インタビュー】日本が「統計先進国」に返り咲くための処方箋

「ビッグデータ狂騒曲」と統計リテラシー

【武田知弘氏インタビュー】大日本帝国の経済成長の裏には何があったのか？

＜緊急寄稿＞大災害の今こそ確認したい「未来を創るリーダーの資質」──クイックレビュー5＋2【未来を創るリーダー：特別編】

評論家宮崎哲弥氏トークセッション：政府に期待するのは法人税減税とR&D減税

関連コンテンツ

Evernoteとは何か？ビジネス活用でさらなる注目を集める“記憶のプラットフォーム”

「データためているだけ企業」に朗報、生成AIで「データ分析」はここまで簡単になった

データレイクとDWH、レイクハウスは何が違う？ガートナー解説、データ基盤の選び方

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む「6つの課題」への処方箋

拡張データ品質管理とは何か？技術頼みの管理は「絶対しくじる」理由をガートナー解説

保険業界「特有」のデータはどう使うのが正解？データ活用先進度を決定づける「4要素」

データファブリックとは何か？ガートナー解説するAI時代のデータ管理術

「お昼休みに学ぶ」Snowflake入門シリーズ

「お昼休みに学ぶ」Snowflake入門シリーズ

Classmethod Showcase 競争力を強化するデータ活用の最前線

Classmethod Showcase 競争力を強化するデータ活用の最前線

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

人気のタグ

【西内啓氏インタビュー】日本が「統計先進国」に返り咲くための処方箋

「ビッグデータ狂騒曲」と統計リテラシー

【武田知弘氏インタビュー】大日本帝国の経済成長の裏には何があったのか？

＜緊急寄稿＞大災害の今こそ確認したい「未来を創るリーダーの資質」──クイックレビュー5＋2【未来を創るリーダー：特別編】

評論家 宮崎 哲弥氏トークセッション：政府に期待するのは法人税減税とR&D減税

関連コンテンツ

Evernoteとは何か？ビジネス活用でさらなる注目を集める“記憶のプラットフォーム”

「データためているだけ企業」に朗報、生成AIで「データ分析」はここまで簡単になった

データレイクとDWH、レイクハウスは何が違う？ガートナー解説、データ基盤の選び方

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む 「6つの課題」への処方箋

拡張データ品質管理とは何か？技術頼みの管理は「絶対しくじる」理由をガートナー解説

保険業界「特有」のデータはどう使うのが正解？データ活用先進度を決定づける「4要素」

データファブリックとは何か？ガートナー解説するAI時代のデータ管理術

「お昼休みに学ぶ」Snowflake入門シリーズ

「お昼休みに学ぶ」Snowflake入門シリーズ

Classmethod Showcase 競争力を強化するデータ活用の最前線

Classmethod Showcase 競争力を強化するデータ活用の最前線

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

人気のタグ

評論家宮崎哲弥氏トークセッション：政府に期待するのは法人税減税とR&D減税

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む「6つの課題」への処方箋