会員限定
2016/02/23 掲載

データ容量が1年で4倍になるYahooは、増大するデータ需要をどう解決するのか？

Hadoop Spark Conference Japan 2016

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

データ戦略

|

タグをもっとみる

日本を代表する規模のビッグデータ処理基盤を持つ企業の1つがYahoo! Japanです。同社は2月8日に開催された「Hadooop Spark Conference Japan 2016」において、現在運用中のビッグデータ処理基盤の規模、そして同社が抱えている課題と、それをどう解決していくのかを基調講演の中で示しました。

執筆：Publickey 新野淳一

関連記事

　Yahoo! Japan（以下Yahoo!）が示した解決方法は、Hadoopなどのビッグデータ処理基盤を使い倒す側から、作る側へ向かうという大胆なものです。同社の貢献はオープンソースとなり、今後さらに多くの課題解決に役立つことになりそうです。

　同社データインフラ本部遠藤禎士（えんどうただし）氏のセッションをダイジェストでまとめました。

Yahoo!はマルチビッグデータカンパニー

　Yahoo! Japan データインフラ本部遠藤禎士（えんどうただし）氏（写真左）。

　現在Yahoo! Japan（以下Yahoo!）は100以上のサービスを提供し、月間649億ページビュー、1秒間に5万アクセスの規模のマルチビッグデータカンパニーです。

　ビッグデータ基盤の全体像として、HadoopのうえにRDB、DWH、オブジェクトストア、KVS（キーバリューストア）が乗っている構造になっています。

　Hadoopクラスタは6000ノード、120ペタバイトのデータを保持。

　その上のサブシステムは以下のようになっています。

・RDBはMySQL（Percona）のデータベースが560個、Oracleのデータベースが200個。

・DWHにはTeradetaを利用し、43ノードで1.7ペタバイト、1日平均30万クエリを処理。

・オブジェクトストレージは同社のプロプライエタリなもので、1500ノード以上あり10ペタバイト以上のデータを保持。1カ月あたりのギガバイト単価は2円

・KVSはCassandraで2000ノード、1秒あたり15万リクエストを処理

　いま取り組んでいるのがこの図に示されたものです。

　今日はHadoopまわりにフォーカスします（図左下）。

　Tezの導入が本格化しており、LLAPの開発も進めており、HBaseは現在検証中、Erasure code、Archival Tierなどにも取り組んでいます。

　Sparkはサイエンス部隊で検索データのグラフデータ化に試験的に取り組んでいます。

【次ページ】データ需要の増大を、コストではなく技術で解決する

データ容量が1年で4倍になるYahooは、増大するデータ需要をどう解決するのか？

Yahoo!はマルチビッグデータカンパニー

「データためているだけ企業」に朗報、生成AIで「データ分析」はここまで簡単になった

データレイクとDWH、レイクハウスは何が違う？ガートナー解説、データ基盤の選び方

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む「6つの課題」への処方箋

関連コンテンツ

拡張データ品質管理とは何か？技術頼みの管理は「絶対しくじる」理由をガートナー解説

保険業界「特有」のデータはどう使うのが正解？データ活用先進度を決定づける「4要素」

データファブリックとは何か？ガートナー解説するAI時代のデータ管理術

「お昼休みに学ぶ」Snowflake入門シリーズ

「お昼休みに学ぶ」Snowflake入門シリーズ

Classmethod Showcase 競争力を強化するデータ活用の最前線

Classmethod Showcase 競争力を強化するデータ活用の最前線

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

人気のタグ

データ容量が1年で4倍になるYahooは、増大するデータ需要をどう解決するのか？

Yahoo!はマルチビッグデータカンパニー

「データためているだけ企業」に朗報、生成AIで「データ分析」はここまで簡単になった

データレイクとDWH、レイクハウスは何が違う？ガートナー解説、データ基盤の選び方

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む 「6つの課題」への処方箋

関連コンテンツ

拡張データ品質管理とは何か？技術頼みの管理は「絶対しくじる」理由をガートナー解説

保険業界「特有」のデータはどう使うのが正解？データ活用先進度を決定づける「4要素」

データファブリックとは何か？ガートナー解説するAI時代のデータ管理術

「お昼休みに学ぶ」Snowflake入門シリーズ

「お昼休みに学ぶ」Snowflake入門シリーズ

Classmethod Showcase 競争力を強化するデータ活用の最前線

Classmethod Showcase 競争力を強化するデータ活用の最前線

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

人気のタグ

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む「6つの課題」への処方箋