データマネジメント#
データ〇〇#
データレイク#
データレイク(data lake):生データ・非構造化データ(画像や音声など)を中心に貯蔵したもの。
データソース(=水源)から流れてきたデータがはじめに貯蔵される場所。
生データのコピーをデータレイクの定義とする本もある。例えば、システムの本番環境RDBからコピーしている分析用のレプリカDBがデータレイク。
AWSのサービスでいうと、非構造化データならS3で、構造化データならRDSやRedshiftなど?
データウェアハウス#
データウェアハウス (data warehouse: DWH):構造化データ(テーブルデータ)を分析・BI用に置いておく場所。
AWSでいうとRedshiftとか?(企業によってはテラバイトやペタバイトの単位になってくるため)
データマート#
企業の財務部門、マーケティング部門、営業部門など、特定のビジネスユニットのニーズに合わせてデータを絞ったデータウェアハウス
AWSでいうとS3にcsvやParquetで貯めておいてAthenaでSQLクエリを書いて取り出せるようにしてるものとか。
ETLツール#
ETL (Extract:データ抽出、Transform : データ整形、Load : データ出力)ツールは、データソースからデータレイクやデータウェアハウスにデータを流し込むツールのこと。
たとえば構造化データならAWS Glue
文献リスト#
International, D. (2018). データマネジメント知識体系ガイド.
ゆずたそ, 渡部徹太郎, & 伊藤徹郎. (2021). 実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ.