- 会員限定
- 2012/04/16 掲載
「ETLフレームワーク」でグーグルとフェイスブックから学ぶビッグデータ活用の基本
ソーシャルコマースの覇者はだれか?
ETLフレームワークの基本
世の中にはデータが溢れています。たとえば、企業では、出社時刻・退社時刻を記録した勤怠データ、顧客の情報を記録した顧客データ、製品の売上を記録した販売データがあるでしょう。あるいは、Web検索、携帯メール、ツイッター、フェイスブックへの書き込みなど、私たちの身の回りにもデータは存在しています。ただ、これらのデータをただ集めただけでは、単なる文字列の羅列で何の意味もありません。では、どうやって、集めたデータから収益を上げるのでしょうか?その答えの一つが、ETLフレームワークです。ETLフレームワークとは、E(Extract:抽出)、T(Transform:変換・加工)、L(Load:積み込み)の3つのプロセスを経ることによって、単なる文字の羅列であるデータから付加価値を生み出す考え方です。

まずは、このETLフレームワークをみていきましょう。ETLフレークワークは、図1のように、データを集めることから始まります。それがE(Extract:抽出)です。この段階では、それぞれのデータがどんな意味を持つのかはあまり気にしません。とにかく、データを収集します。
しかしながら、データを単に収集しただけでは何も付加価値はありません。収集したデータを何かしらの切り口に基づいて整理整頓(仕分け)する必要があります。これがT(Transform:変換・加工)です。
たとえば、集めたデータ中の性別のフィールドに、“紳士”、“男性”、“Male”という3つの同じ意味でも異なる語句の場合、それをまとめて、“男”として変換・加工(正規化)します。これによって、バラバラに取得したデータを同じ土俵で比較することができるようになります。
最後に、同じ土俵で比較できるようになったデータをデータ倉庫(DWH:データウェアハウス)に保存して、いつでも取り出せて、更新があれば書き換えるようにデータを出し入れします。これが最後のL(Load:積み込み)です。
このETLフレームワークによって、単に文字の羅列であるデータから付加価値を生み出すサービスへと変えるのです。ETLフレームワークは、データウェアハウスを構築する場合に必須の概念ですが、データウェアハウスに限った話ではありません。
そこで、データ活用の代表的な企業であるグーグルおよびフェイスブックの2社に焦点をあてて、どのようにデータを価値あるものにしているのかについて、解説していきましょう。
【次ページ】グーグルのデータ活用戦略
関連コンテンツ
PR
PR
PR