IoT・AI
データ活用時代に知っておきたい データウェアハウス・データマート・データレイクの違い
掲載日:2022/02/15
近年、データ活用の重要さが広く認識された一方で、データの蓄積・保管に目を向けられている企業はそう多くない。データをただ収集するだけで分析ができる、という訳ではなく、データを適切に保管することが重要だ。そこで本記事では、今後必要とされる3つのデータ保管方法「データウェアハウス」「データマート」「データレイク」について詳しく説明する。
「データ活用」時代の到来
現代は「データ活用時代」へ完全に突入したと言われている。事実、精度の高い予測や素早くより良い意思決定につながるデータ分析は、多くの企業にとって欠かせないものとなった。また、業種やビジネスの内容によってはさまざまな形式のデータが扱われている。
幅広い業種で扱われているデータといえば、ExcelやCSVファイルだ。これらは「構造化データ」と呼ばれるもので、項目の形式や順序など、定義された構造に従って配置されている。例えば、一般的な売上票のExcelデータには、「商品名」の列と「売上数」の列などが定義され、それぞれの情報が記録されている。このようなデータの場合、どの商品がいくつ販売されているのかを一目で確認でき、容易に集計や分析が可能である。これが構造化データだ。
一方、動画やグラフィックといったデータは、それ自体がどのような情報を持つのかを定義することが困難である。これらのデータを「非構造化データ」と呼ぶ。例えば、CGアートのデータは、どれほど美しい作品なのかを数字や文章で正確に定義できない。従って集計には不向きであり、分析して活用することも難しい。
実は、Eメールの内容やIoT関連データ、Word文書など、ビジネスで用いられるデータのほとんどは非構造化データだ。つまり、最新のトレンドを製品にいち早く取り入れたり、日々の業務内容から改善点を洗い出したりするためには非構造化データの活用が必要不可欠であり、困難だからといって分析を避けることはできないのだ。
これらさまざまなデータを活用する際に重要なのが「蓄積」という概念である。ビッグデータはサンプル数が多いほど正確な分析を可能にする。今日から収集したデータを蓄積するということは、数年後・数十年後のビジネスを下支えする大きな役割を果たすだろう。分析が困難な非構造化データも、AI活用によって、関連性や規則性の発見が可能になりつつある。よりAIが高性能化する未来に備え、今から非構造化データを蓄積しておくことは重要なことなのだ。
データ保管タイプとは?
~データウェアハウス・データマート・データレイク~
さて、ひとくちにデータを蓄積すると言っても、その保管の種類は複数ある。注目すべきは以下の3タイプだ。
データウェアハウス
データウェアハウスは、主に構造化データを扱うタイプの保管方法。大規模なストレージにあらかじめ構造化した大量のデータを蓄積し、その膨大なサンプル数を生かして効率的な分析を実現する。
データウェアハウスに蓄積されるデータの内容は、運用当初の意図によって規定される。すなわち、データを収集する目的やアウトプットの方法は、運用当初に意図した形以外に応用することができないというデメリットがあるのだ。
例えば、ECサイトの購入履歴を基に、顧客の年齢データのみをデータウェアハウスに数十年間蓄積したとしよう。この場合、数十年間分のデータを活用して、どんな年齢の顧客がどんな商品を購入するのかを分析するのは容易である。しかし、後から「顧客の性別と商品売上の相関関係を分析したい」と思っても、データウェアハウスに蓄積されたデータでは分析ができないのだ。
このように、データウェアハウスを活用する場合は、運用当初からさまざまな分析方法をよく想定する必要がある。ただし、想定外の活用法が求められることに備えて多様なデータを蓄積した場合、あまりにも参照すべき内容が膨大になるため、適切に情報を拾って分析ができる人材の確保や育成が求められるという問題の発生も考えられる。
データマート
「データウェアハウスには、分析が困難なほどに膨大なデータが蓄積されてしまう」という問題を解消する方法として注目されているのが、データマートだ。これは、データウェアハウスから特定のデータを抽出・加工されたもののみを保管する方法である。
例えば、一つの企業がさまざまな業務のデータをデータウェアハウスに蓄積していたとしよう。この場合、あるデータは企業のA部署では有用であるものの、B部署では必要ないという状況が考えられる。そうすると、このデータはB部署にとって分析の障壁となってしまう。データマートではこのような事態を避けるため、あらかじめ部署ごとに適切なデータを分類し、分析に必要な内容ごとの参照が可能な構造となっている。
しかし、データマートはデータを複雑に分類して保管する特性上、導入や維持にデータウェアハウス以上のコストが発生する。また、前述の例のように部署ごとにデータを分類した場合、部署をまたいで一元的にデータを分析することは困難だ。このような理由から、中長期的なデータ分析に活用する場合には不向きと言えるだろう。
データレイク
データレイクとは、業務におけるあらゆるデータを膨大なストレージに蓄積する管理方法である。構造化データはもちろん、非構造化データも含めたあらゆる形式のデータを一括保存できる。そのため、データウェアハウスのように蓄積すべきデータを運用当初に取捨選択する必要がない。
ただし、データレイクには多種多様なデータが蓄積されるため、全てが分析において有用とは限らない。品質の低いデータが多量に蓄積されることもあるだろう。このような状態をデータスワンプ(Swamp:沼)と呼ぶ。データレイクを運用する際は、どの情報がどこに存在し、どういった性質を持つのかを定義した「データカタログ」を併せて準備し、データスワンプを防ぐことが重要だ。
データ活用の需要拡大に備えた提案を
データ活用の需要は今後も高まっていくことが予想される。前述したとおり、データは蓄積・分析されることによって効力を発揮する。企業には、今日から収集を始めるための優れたソリューションが必要だ。ベンダーとしても最新ソリューションの情報を収集し、企業と協力して最適なデータ蓄積を実現するための提案ができるよう、備えておきたいものである。