MIC（Maximal Information Coefficient）

MIC（Maximal Information Coefficient）#

Reshef, et al. (2011). Detecting novel associations in large data sets. で提案されたMIC（Maximal Information Coefficient）は、相互情報量を用いてデータの非線形な関連性を評価できる係数。

「21世紀の相関係数（A Correlation for the 21st Century）」としてScience誌に紹介され、話題になった。

確率分布 \(p(x,y)\) による一般の非線形依存関係の強さを測る。

離散確率変数の場合：

\[ I(X ; Y)=\sum_{y \in \mathcal{Y}} \sum_{x \in \mathcal{X}} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \]

連続確率変数の場合：

\[ I(X ; Y)=\int_{\mathcal{Y}} \int_{\mathcal{X}} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} d x d y \]

散布図をさまざまな格子分割 \((x,y)\) に切り、各ビンの相対頻度から 相互情報量 を計算し、その最大値をスケール正規化したもの。

MIC は相互情報量を複数グリッドで最大化し、

\[ 0 \le \mathrm{MIC} \le 1 \]

となるように正規化した指標。