会員限定
2012/08/29 掲載

Hadoopとは何か？これまでのおさらいと最新動向

日々進化するHadoop

ありがとうございます！
いいね！した記事一覧をみる

会員になると、いいね！でマイページに保存できます。

データ戦略

|

タグをもっとみる

大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。そしてそのHadoop自体も、日々進化し続けています。Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。この記事ではそのセッションの内容をダイジェストで紹介しましょう。

執筆：Publickey 新野淳一

日々進化するHadoopの「いま」

　NTTデータ基盤システム事業部濱野賢一朗氏。

　NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そこで27～28人くらいHadoopをやっている人がいるのですが、そのとりまとめに近いことをやっています。

　Hadoopって何なのかというと基本的には2つのコンポーネント、分散ファイルシステムの「HDFS」（Hadoop Distributed File System）、大規模分散処理フレームワークの「MapReduce」でできています。

　Hadoopの基本的なアイデアは、ひとつのハードディスクドライブで出せるスループットでは限界があるので、ハードディスクドライブを持った複数のIAサーバを分散配置すれば大規模なデータもどんと読み込めて高速にできるだろうと。

　これを支えているのが分散ファイルシステムのHDFSです。このデータを処理するときもローカリティを活かして、極力そのデータがあるサーバの中で処理するようにしています。

　また分散処理固有の問題、例えばサーバが壊れたり、ネットワークが遅延したり、部分的に処理が失敗したものを検出してリカバリするのはMapReduceフレームワークの方で解決してもらって、プログラマは考えなくていいようにしています。

次ページ >>　　マスターとスレーブに分かれるHDFS

Hadoopとは何か？これまでのおさらいと最新動向

日々進化するHadoopの「いま」

「データためているだけ企業」に朗報、生成AIで「データ分析」はここまで簡単になった

データレイクとDWH、レイクハウスは何が違う？ガートナー解説、データ基盤の選び方

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む「6つの課題」への処方箋

関連コンテンツ

拡張データ品質管理とは何か？技術頼みの管理は「絶対しくじる」理由をガートナー解説

保険業界「特有」のデータはどう使うのが正解？データ活用先進度を決定づける「4要素」

データファブリックとは何か？ガートナー解説するAI時代のデータ管理術

「お昼休みに学ぶ」Snowflake入門シリーズ

「お昼休みに学ぶ」Snowflake入門シリーズ

Classmethod Showcase 競争力を強化するデータ活用の最前線

Classmethod Showcase 競争力を強化するデータ活用の最前線

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

人気のタグ

Hadoopとは何か？ これまでのおさらいと最新動向

日々進化するHadoopの「いま」

「データためているだけ企業」に朗報、生成AIで「データ分析」はここまで簡単になった

データレイクとDWH、レイクハウスは何が違う？ガートナー解説、データ基盤の選び方

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む 「6つの課題」への処方箋

関連コンテンツ

拡張データ品質管理とは何か？技術頼みの管理は「絶対しくじる」理由をガートナー解説

保険業界「特有」のデータはどう使うのが正解？データ活用先進度を決定づける「4要素」

データファブリックとは何か？ガートナー解説するAI時代のデータ管理術

「お昼休みに学ぶ」Snowflake入門シリーズ

「お昼休みに学ぶ」Snowflake入門シリーズ

Classmethod Showcase 競争力を強化するデータ活用の最前線

Classmethod Showcase 競争力を強化するデータ活用の最前線

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

変化を先取りする力：消費者動向とCX戦略の最前線 in 大阪

人気のタグ

Hadoopとは何か？これまでのおさらいと最新動向

AIで「大苦戦」する企業はなぜ後を絶たない？活用を阻む「6つの課題」への処方箋