- 会員限定
- 2016/02/23 掲載
データ容量が1年で4倍になるYahooは、増大するデータ需要をどう解決するのか?
Hadoop Spark Conference Japan 2016
同社データインフラ本部 遠藤禎士(えんどうただし)氏のセッションをダイジェストでまとめました。
Yahoo!はマルチビッグデータカンパニー
Yahoo! Japan データインフラ本部 遠藤禎士(えんどうただし)氏(写真左)。
現在Yahoo! Japan(以下Yahoo!)は100以上のサービスを提供し、月間649億ページビュー、1秒間に5万アクセスの規模のマルチビッグデータカンパニーです。

ビッグデータ基盤の全体像として、HadoopのうえにRDB、DWH、オブジェクトストア、KVS(キーバリューストア)が乗っている構造になっています。

Hadoopクラスタは6000ノード、120ペタバイトのデータを保持。

その上のサブシステムは以下のようになっています。
・RDBはMySQL(Percona)のデータベースが560個、Oracleのデータベースが200個。
・DWHにはTeradetaを利用し、43ノードで1.7ペタバイト、1日平均30万クエリを処理。
・オブジェクトストレージは同社のプロプライエタリなもので、1500ノード以上あり10ペタバイト以上のデータを保持。1カ月あたりのギガバイト単価は2円
・KVSはCassandraで2000ノード、1秒あたり15万リクエストを処理
いま取り組んでいるのがこの図に示されたものです。

今日はHadoopまわりにフォーカスします(図左下)。
Tezの導入が本格化しており、LLAPの開発も進めており、HBaseは現在検証中、Erasure code、Archival Tierなどにも取り組んでいます。
Sparkはサイエンス部隊で検索データのグラフデータ化に試験的に取り組んでいます。
【次ページ】 データ需要の増大を、コストではなく技術で解決する
関連コンテンツ
PR
PR
PR