• 会員限定
  • 2014/10/16 掲載

590億PVをバリューに変える、ヤフーのビッグデータ基盤構築における2つのポイント

  • icon-mail
  • icon-print
  • icon-hatena
  • icon-line
  • icon-close-snsbtns
会員になると、いいね!でマイページに保存できます。
検索やオークション、ショッピングなど、PCとスマートデバイス向けを併せて100種類以上のサービスを提供するヤフー。月間アクティブユーザーID数が約2800万人、月間総ページビュー数が約590億で、年間ユニーク検索クエリ数は実に約75億にのぼる。同社のこうしたビジネス展開を支えているシステム基盤はどのような仕組みになっているのか。NEC主催「ビッグデータ時代のデータ活用とITインフラ」セミナーで登壇したヤフー システム統括本部 データソリューション本部 TD室 室長の日比野哲也氏が、その取り組みについて語った。

業務改善のPDCAサイクルの各フェーズで、ビッグデータを活用

photo
ヤフー
システム統括本部
データソリューション本部
TD室 室長
日比野 哲也 氏
 “課題解決エンジン”をミッションに掲げるヤフーの現在の規模感は、月間アクティブユーザーID数が約2800万人、月間総ページビュー数が約590億で、年間約75億種類の検索クエリが入力されているという。「Yahoo!ショッピング」における取扱商品数は1億点以上だ。

「サービスを運営する中で我々は利用者のさまざまな行動、たとえばどんなキーワードで検索したのか、ショッピングで何を買ったのか、地図でどこを見たのかといった多種多量のデータを保持している。しかし単にデータがあるだけでは何も生まれない。ここから価値を生み出すには、これらビッグデータを十分に活用する必要がある」

 そのためヤフーでは、業務改善におけるPDCAサイクルのあらゆる場面で、ビッグデータを活用している。

 たとえばPlanのフェーズでは、“萌芽検知”という取り組みがある。あるキーワードの検索回数の変化を時系列に沿って見るもので、これにより世間で関心が伸びつつある事柄を早期に発見し、そこからユーザーニーズの変化やマーケットの変化をいち早くキャッチして、適切な施策立案につなげていく。

画像
萌芽検知のイメージ
(出典:ヤフー講演資料)


関連記事
 次にDoのフェーズでは、ビッグデータを利用してさまざまなサービスを展開している。具体的には、検索窓に入力されたキーワードに関連して、次に打ちこまれるキーワードを予測し、ユーザーに提示する“検索キーワードの入力補助”や、ショッピングやニュースなどで、ユーザーが関心のありそうな商品やニュースを推測して提案する“レコメンデーション”などが挙げられる。

 さらにCheckとActionのフェーズでは、ビッグデータを分析することでさまざまな施策の効果を検証し、次のアクションを決める取り組みを行っている。

 わかりやすい例がA/Bテストで、サイトのデザインやレイアウトを数パターン出し分け、ユーザーの実際の反応を見ながら最適な形を決めていくというものだ。ヤフーのサイトでは日々、さまざまなテストが行われており、その結果に応じてレイアウトを調整しているという。

「たとえば、スマートフォン版Yahoo! JAPANトップの検索窓の枠線を中太にした場合、細い枠線の時と比べて、検索誘導率が2%向上した。我々は検索連動型広告というサービスも提供しているが、検索誘導率のアップによって、広告の年間売上高は約5億円増えた。まさにビッグデータの活用がビジネスにつながった好例だ」

画像
検索窓のデザインを微調整することで、検索誘導が2%向上した
(出典:ヤフー講演資料)


バリューにつながるシステムの1つめのポイントは、“入力基盤の強化”

 ビッグデータを活用して数多くのビジネス価値を生み出しているヤフーだが、そのためにはデータ活用を支えるIT基盤が必要不可欠だ。それではどうすれば、バリューにつながるシステムを構築することができるのか。

「先に紹介したようなPDCAサイクルにおけるデータ活用例は、1つ1つを見ると小粒なもの。しかしこうした取り組みが、業務の至るところで行われるようにならなければ、会社としての大きな効果には結び付かない。そこで我々はデータ活用のためのシステムを構築するに当たって、特に2つのポイントを意識してきた」

 その1つめが、入力基盤を強化することだ。

画像
入力基盤の強化
(出典:ヤフー講演資料)


 データを活用するためのシステムの構造は入力部、処理部、出力部に分けられる。まず入力部には、データを集めたり、転送したりする機能があり、その上にグリッドコンピューティングやHadoopのようなデータ処理基盤がある。続いてデータを測定/分析するためのシステムがあり、さらにその上に最適化を図ったり、実際のビジネスやサービスで使うためのシステムが存在する。

「こうした構造を考えた時、出力側だけを大きくするのは現実的ではない。少ないデータを使って複雑な分析をしても、良い結果を得られることは稀である。実現可能な施策は、取得できるデータやコンピューティングパワーなどに依存する。必要なデータをしっかりと取得し、適切な処理を行い、測定/分析できる下地があって初めて、具体的なビジネスやサービスにつながるということ。入力基盤が大きくなればなるほど、サービスやビジネスの可能性も広がる」

 またヤフーは処理部の機能も非常に重視しており、1ノードで4000台規模のHadoopのクラスタとTeradataのデータウェアハウスを持つ同システムは、共に日本最大級の規模となる。

画像
データ処理基盤としては日本最大級となる
(出典:ヤフー講演資料)


「一般的な企業では、データを分析する、あるいはデータを使ってサービスを運営する部分を重視することが多いが、我々は、ロギングのシステムやデータを回収するためのシステム、またグリッドコンピューティングや音声認識、自然言語処理など、データそのものを理解するためのテクノロジも非常に注力しており、そのための部隊を設置している」


【次ページ】“データドリブンな組織”の条件とは?
関連タグ タグをフォローすると最新情報が表示されます
あなたの投稿

    PR

    PR

    PR

処理に失敗しました

人気のタグ

投稿したコメントを
削除しますか?

あなたの投稿コメント編集

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

通報

このコメントについて、
問題の詳細をお知らせください。

ビジネス+ITルール違反についてはこちらをご覧ください。

通報

報告が完了しました

コメントを投稿することにより自身の基本情報
本メディアサイトに公開されます

必要な会員情報が不足しています。

必要な会員情報をすべてご登録いただくまでは、以下のサービスがご利用いただけません。

  • 記事閲覧数の制限なし

  • [お気に入り]ボタンでの記事取り置き

  • タグフォロー

  • おすすめコンテンツの表示

詳細情報を入力して
会員限定機能を使いこなしましょう!

詳細はこちら 詳細情報の入力へ進む
報告が完了しました

」さんのブロックを解除しますか?

ブロックを解除するとお互いにフォローすることができるようになります。

ブロック

さんはあなたをフォローしたりあなたのコメントにいいねできなくなります。また、さんからの通知は表示されなくなります。

さんをブロックしますか?

ブロック

ブロックが完了しました

ブロック解除

ブロック解除が完了しました

機能制限のお知らせ

現在、コメントの違反報告があったため一部機能が利用できなくなっています。

そのため、この機能はご利用いただけません。
詳しくはこちらにお問い合わせください。

ユーザーをフォローすることにより自身の基本情報
お相手に公開されます