データマネジメント#

データ〇〇#

データレイク#

データレイク(data lake):生データ・非構造化データ(画像や音声など)を中心に貯蔵したもの。

データソース(=水源)から流れてきたデータがはじめに貯蔵される場所。

生データのコピーをデータレイクの定義とする本もある。例えば、システムの本番環境RDBからコピーしている分析用のレプリカDBがデータレイク。

AWSのサービスでいうと、非構造化データならS3で、構造化データならRDSやRedshiftなど?

データウェアハウス#

データウェアハウス (data warehouse: DWH):構造化データ(テーブルデータ)を分析・BI用に置いておく場所。

AWSでいうとRedshiftとか?(企業によってはテラバイトやペタバイトの単位になってくるため)

データマート#

企業の財務部門、マーケティング部門、営業部門など、特定のビジネスユニットのニーズに合わせてデータを絞ったデータウェアハウス

AWSでいうとS3にcsvやParquetで貯めておいてAthenaでSQLクエリを書いて取り出せるようにしてるものとか。

参考:データレイク、データウェアハウス、データマートの比較 - クラウドストレージソリューションの違い - AWS

ETLツール#

ETL (Extract:データ抽出、Transform : データ整形、Load : データ出力)ツールは、データソースからデータレイクやデータウェアハウスにデータを流し込むツールのこと。

たとえば構造化データならAWS Glue

文献リスト#

  • International, D. (2018). データマネジメント知識体系ガイド.

  • ゆずたそ, 渡部徹太郎, & 伊藤徹郎. (2021). 実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ.