- 会員限定
- 2024/09/18 掲載
データレイクとDWH、レイクハウスは何が違う?ガートナー解説、データ基盤の選び方
数年後に訪れるデータ保管の「新常識」とは
ビジネスにおいてデータ分析の重要性が増す現在、データ分析をより効果的に行えるデータ管理・保管の手法についても、注目が集まっている。こうした手法としては、「データレイク」、「データウェアハウス」、「レイクハウス」などが挙げられるが、これらは特徴が異なり、自社の目的に合った活用が重要になる。
上記3種について、「多くの企業・組織がデータウェアハウスを持ち、併せてデータレイクを保有しているところも少なからずいらっしゃるでしょう。一方、データレイクハウスがある組織はそれほど多くはありません」と指摘するのは、ガートナーのシニア ディレクター, アナリストであるシンユウ・グ氏だ。
グ氏は、3種について「近い将来、データウェアハウスとデータレイクは融合し、数年後にはほとんどの組織がデータレイクハウスを活用することになるでしょう」との予測を示す。
ではそもそも、データレイク、データウェアハウス、レイクハウスにおける共通点や相違点はどこにあるのだろうか。
3種の手法における「ある共通点」
グ氏がまず3種の共通点として挙げるのが「分析データを集約するためのリポジトリである」点と「分析ワークロードの基盤になる」点だ。「データレイク、データウェアハウス、レイクハウスともに、ほとんどの分析データのリポジトリとして機能します。また、多くの組織のデータがそれらに格納され、さまざまな分析ワークロードの基盤として機能します」(グ氏)
そして、この共通点は、3種と同じくデータ活用で重要な役割を果たす「データ・ハブ」が持ち合わせていない役割でもあるとグ氏は指摘する。
こうした共通点の一方で、3種はデータ・ハブが果たす役割との差別化要素である「ガバナンスに焦点を合わせた」点、「多様な用途にデータを提供する仲介役である」点において、下図のように微妙に立ち位置が異なる。
また、データレイク、データウェアハウス、レイクハウスはデータ・ガバナンスに主眼を置いていない。ただ、データを適切に管理するにはある程度のガバナンスが必要であり、そうした役割を担うのがデータ・ハブだとグ氏は話す。
「データ・ハブはある種、データ仮想化技術のようなものです。データを必ずしも同じデータベースに物理的に格納させる必要がなく、データを分析したいという点でデータ・ハブは3種とは異なります」(グ氏) 【次ページ】「最重要データ」を格納するのは?
関連コンテンツ
PR
PR
PR