概要

概要#

因果グラフ（DAG）を用いて、selection on observableの仮定を置いて因果推論する場合、欠落変数バイアスが起きないように適切なDAGを設定する必要がある。

通常、DAGはドメイン知識に基づいて作られるが、データにもとづいてDAGを推定しようとするのが因果探索（causal discovery）の分野。

Causal Assumptions#

[2303.15027] A Survey on Causal Discovery Methods for I.I.D. and Time Series Data

グラフィカルモデルで因果探索するための仮定

因果マルコフ条件（Causal Markov Condition）
忠実性（Faithfulness）
因果的十分性（Causal Sufficiency）
非巡回性（Acyclicity）

仮定(1)：因果マルコフ条件（Causal Markov Condition）#

各ノード\(X_i \in X\)が親ノードで条件づけられた場合、非子孫ノードとは条件付き独立の関係にある。

例：連鎖構造

グラフ： \(X \to Y \to Z\)
このとき： \(Z \perp X \mid Y\)（\(Y\) を条件づけると \(X\) と \(Z\) は独立）

../../_images/0b6415698fa8d4339793438f4861bfa513c1cd78646cb6b324be6397d2ce91e3.svg

仮定(2)：忠実性（Faithfulness）#

d分離（d-separation、ノード\(X, Y\)を別のノード集合\(\mathcal{S}\)でブロックしている状態）以外に統計的独立（\(Cov(X, Y) = 0\)）が成り立たないことを 忠実性 という。

忠実性が満たされない例は次の画像のようなグラフ。\(X_3\)に対して\(X_1 \to X_3\)と\(X_2 \to X_3\)の2つの影響が加わるため、両者の効果が相殺されて\(X_2 \to X_3\)が見かけ上独立になることが考えられる。

../../_images/6a3437ad80d11b1a910078e174a08c1a6c2092dab1c279a9faf231b1da612728.svg

仮定(3)：因果的十分性（Causal Sufficiency）#

未観測の交絡因子が存在しないという仮定。

仮定(4)：非巡回性（Acyclicity）#

DAGであるという仮定。

因果探索手法の分類#

主に4つのアプローチがある

制約ベース
スコアベース
関数因果モデル
勾配ベースモデル

	① 制約ベース	② スコアベース	③ 関数因果モデル（非ガウス性・非線形性の活用）	④ 勾配ベース
静的	PC, FCI, RFCI	GES, TTPM, BIC-GES	LiNGAM, PNL, ANM, HPCI, NICA-LiNGAM	NOTEARS, NOTEARS-GOLEM, GAE, CORL
動的	PCMCI, PCMCI+	SVAR-FCI, tsGES	VAR-LiNGAM, TiMINo, DAG-GNN (time series version)	Dynotears, cNOTEARS

制約ベース（constraint based)#

条件付き独立性のパターンから、DAGの構造（因果構造）を推定（学習）する手法群。
独立性／非独立性の “制約 (constraints)” を満たすDAGを探すため、constraint-based と呼ばれる。

代表例：PCアルゴリズム

スコアベース（score based）#

モデルの「当てはまりの良さ」を測るスコアを定義し、因果グラフの集合の中から最も良いグラフを探し出すアプローチ。

代表例：GESアルゴリズム

関数因果モデル#

非対称性を用いるアプローチ。

例えばLiNGAMは誤差項の確率分布がガウス分布（正規分布）に従わない線形モデルのDAGを推定する。正規分布でなく、因果の方向性がわかることを利用する

勾配ベース#

制約ベースやスコアベースの場合、ノードの組み合わせを最適化する非凸組合せ最適化問題として解くため、計算量が多くて効率的に最適化ができない。

そこで微分可能な連続最適化問題として解くのが勾配ベースのアルゴリズム。

代表例：NOTEARS

動的（時系列を伴う）因果探索#

時間軸も含めたデータで因果探索を行う場合、更に次の2つの仮定が加わる。

1. 時間的優先性#

**時間的優先性（temporal priority）**は、ある出来事が別の出来事の原因であるとき、原因は結果よりも先に起こることを意味する。

例えば、「雨が降る（原因）」と「水たまりができる（結果）」があるとき、先に雨が降るということ。

しかし、時間的優先性は必ずしも明確に観察できるわけではない。時間軸方向でどのくらいの頻度でデータが取れているのか（例：日次なのか月次なのか）によっては観察できないため。

時間軸方向の解像度のせいで時間的優先性が確認できず同時に行ったように見えることを 同時期の因果関係（contemporaneous causal relations） あるいは 瞬時の因果関係（instantaneous causal relations） という。

2. 時間全体の一貫性#

時間全体の一貫性（consistency throughout time） は「ある事象が別の事象を引き起こす」という関係が、時間が経っても変わらないこと。

例えば「雨が降ると水たまりができる」という関係は、今日でも明日でも変わらない。

時系列データの因果探索アルゴリズムの比較

[2104.08043] Data Generating Process to Evaluate Causal Discovery Techniques for Time Series Data

合成データの生成アルゴリズムを提案し、複数の因果探索の手法を比較。

専門用語まとめ#

マルコフ同値類#

マルコフ同値類

同じ条件付き独立性を与える因果グラフの集合を マルコフ同値類（Markov equivalence class: MEC） という。

例えば、

DAG1: X → Y → Z
DAG2: X ← Y → Z

はいずれも\(X\perp Z \mid Y\)であるため、マルコフ同値類の要素である。

因果探索において、MECから因果グラフを一意に特定するのが難しい

../../_images/50124c35b67cb674e3b7c58c2a21778fe251df082fcc712c4cb96945d7cd0da1.svg

Structural Causal Models (SCM)#

子ノードが親ノードの関数で表現される、すなわち、変数集合 \(X_1, \dots, X_m\) の各変数 \(X_i\) が親ノード \(pa(X_i)\) とノイズ \(\varepsilon_i\) による関数 \(F_i\) で

\[ X_i = F_i(pa(X_i), \varepsilon_i) \]

のように表現される因果モデルを Structural Causal Models (SCM) あるいは 構造方程式モデル（Structural Equation Models: SEM） あるいは 関数因果モデル（Functional Causal Models） と呼ぶ。

なお\(F_i\)は通常、線形関数を仮定する。

\[ X_i=\sum_{X_j \in pa(X_i)} f_{i j}(X_j)+\varepsilon_i \]

概要

Contents

概要#