- 会員限定
- 2012/02/22 掲載
城田真琴氏インタビュー:ビッグデータ活用、データの性質だけで捉えないことが大切
CDO(Chief Data Officer)が必要に?
データの性質だけでなく、広く捉えるべき
講演などでは、ビッグデータの特徴を大量(Volume)、多様性(Variety)、発生頻度が高い(Velocity)という3つのVで説明しています。ただし、これはあくまでもデータの性質だけに着目した定義で、個人的にはもう少し広い意味でビッグデータを捉える必要があるのではないかと思っています。
というのも、収集したデータをどう蓄積し、どう分析して、どうビジネスに活かすのかということが重要だからです。昨今では、それらを実践できるスキルを持った「データサイエンティスト」と呼ばれる人材にも注目が集まっています。また、ビッグデータをビジネスにおいてうまく回していくための組織論にも拡大しています。このようにビッグデータの潮流は広い視点でみていく必要があると思っています。
──いまやビッグデータという言葉が一人歩きしている印象もあります。色々な企業がこぞってビッグデータという言葉を使い始めました。
ビッグデータという言葉をどう定義するべきか、人によって意見が分かれるところかもしれません。個人的には、構造化データがペタバイトクラスあれば、それはビッグデータと呼んでいいと思いますが、ギガバイトクラスのデータで売上分析を行うことをビッグデータ活用と呼ぶのは少し違うかなという印象もあります。
大量(Volume)にのみ着目して、大量データを扱うことをビッグデータと呼んでもよいのですが、私がポイントとしているのは、Vの中でも多様性(Variety)です。マーケティングを例にとれば、売上データや顧客データといった構造化データだけでなく、コールセンターに寄せられた顧客の声、ブログやTwitterなどソーシャルメディア上の書き込みなどを組み合わせて分析することで、今まで見えなかった顧客の嗜好が見えてくる可能性が高まります。
──既存システムやソリューションのデータサイズを大きくしただけではないということでしょうか。
データサイズが桁違いに大きくなるだけでも、データの蓄積や処理という点で、システム部門にとっては大きなテーマとなりますが、現在、ビッグデータに対する関心が高まっているのは、今まで溜めるだけで活用してこなかったデータや存在しなかった新しいデータから、ビジネスに有用な新しい知見なり、洞察を得ることが重視されているからです。
テクノロジー面ではHadoopを中心に考える
──ビッグデータ関連のテクノロジーで注視するべきポイントはどこにありますか。やはり非構造化データの高速処理を汎用サーバ上で実行可能なオープンソースソフトウェア(OSS)の分散処理フレームワーク「Apache Hadoop(以下、Hadoop)」を中心に考えるべきでしょう。さらに、事前にスキーマ定義不要でスケールアウト可能な「NoSQL」データベースやオープンソースの統計解析言語「R」などの技術に注目しています。
これまで、大規模データの蓄積・処理環境の構築には、非常にコストがかかりましたが、こうしたオープンソースソフトウェアの登場や、サーバやストレージなどのハードウェアコストの低下によって、従来よりも劇的にデータの蓄積・処理コストが下がっています。
ただし、Hadoop単体では構造化データと組み合わせるような、データの多様性を生かした分析はできません。そのため、既にデータ・ウェアハウス(以下、DWH)を導入済みの企業であれば、HadoopをETL的な使い方をして、DWHに取り込んで分析する、というのが理にかなっていると考えています。そのため、DWHベンダー各社はHadoopとの連携にはかなり力を入れています。
【次ページ】ビッグデータ活用で注目したい日本企業の2つの事例
関連コンテンツ
PR
PR
PR