相関の希薄化#
相関の希薄化(attenuation of correlation) とは、データの測定誤差によって相関がゼロに近づく方向のバイアスをもつ現象。
信頼性は例えばテストやアンケートの設計に起因するものもあるし、連続変数を離散化したことによる情報の欠落によるものもある(→カテゴリカル変数の相関係数は希薄化を補正する考えから生まれた)
測定誤差による相関の希薄化#
attenuation formula#
相関の希薄化(attenuation)は Spearman (1904) によって発見された。またこの問題を修正するための式も提案された。
Double Correction
\(r_{x y}\):観測された相関
\(\rho_{x y}\):真の相関、あるいは信頼性が完璧なもとでの相関
\(r_{x x}\):変数\(X\)の信頼性
\(r_{y y}\):変数\(Y\)の信頼性
式を変形すると、「観測される相関は真の相関に信頼性の影響が掛かったものである」という考え方をする。
attenuation formula
信頼性とは#
再検査法(test-retest)的な考え方#
例えばテストの得点においては「偶然高い得点(低い得点)になった」というようなランダム性の要素が少なくて、仮に同じ能力の人が同様のテストを繰り返し受験したら毎回同様の能力値の評価がなされるようなテストは信頼性が高い。逆にランダム性の影響が高いテストは信頼性が低いと考えられる。
なお、この考え方はテスト理論における再検査法の考え方。
\(x_1\):1回目のテストの測定結果
\(x_2\):2回目のテストの測定結果
なお Spearman (1904) も信頼性の部分は「同じ確率変数の独立に得られたサンプルの系列における相関係数の平均」という考え方をとっていたし、1940~50年代の文献でもこうした考え方が支持されていた。
To ascertain the amount of this attenuation, and thereby discover the true correlation, it appears necessary to make two or more independent series of observations of both \(p\) and \(q\). Then,
where
\(r_{p'q'}\) = the mean of the correlations between each series of values obtained for \(p\) with each series obtained for \(q\).
\(r_{p'p'}\) = the average correlation between one and another of these several independently obtained series of values for \(p\).
\(r_{q'q'}\) = the same as regards \(q\).
and \(r_{pq}\) = the required real correlation between the true objective values of \(p\) and \(q\).
信頼性係数#
本質的に同様の考え方ではあるが、観測値が「真のスコア」と「測定誤差」から構成されて、真のスコアの割合が高いほど信頼性が高いという考えから次のように定式化することもできる
\(T\):真のスコア
\(\epsilon\):測定誤差
\(X=T+\epsilon\):観測値
離散化による相関の希薄化#
連続変数を離散化することは測定の精度が下がることに相当する。 例えば、ある連続変数を「\(0.5\)以上かどうか」で二値に離散化した場合、\(0.49\)も\(-999\)も「閾値である\(0.5\)より低い」という点では同じ値として観測されることになる。
こうした点では測定誤差の相関の希薄化と類似した問題が起こる。 そのため離散化された質的変数を含む2変数間の相関関係をピアソンの積率相関係数で評価しようとすると希薄化が起こって過小評価バイアスが含まれることになる。
希薄化の例#
Peters & Van Voorhis (1940) は相関係数が\(\rho\)の 2 変量正規分布に従う確率変数 \(X, Y\)があるとき、\(X\)を平均値や中央値で二値化した確率変数を\(X_d\)とすると、\(X_d\)と\(Y\)の間の相関係数は\(0.798 \rho\)になる、つまり真の相関係数の約 0.8 倍へと過小評価する問題があることを報告している。\(0.798\)になるのは二値化のときであり、離散化のカテゴリ数や分割点を変えれば希薄化の強さは変わる。
モンテカルロシミュレーションしてみると、だいたいそのような結果になることが簡単に確認できる。例えば真の相関係数\(\rho=0.5\)の分布から疑似乱数でサンプルを生成して二値化して相関係数\(\hat{\rho}=\operatorname{cor}(x_d, y)\)を計算することを何回も繰り返してその標本分布を描くと、平均的には\(\operatorname{avg}(\hat{\rho}) \approx 0.4\)となり、その比率\(\frac{\hat{\rho}}{\rho}\)の平均は
となることがわかる。
真の相関=0.500, 二値化後の相関係数=0.399, 比率=0.798
真の相関係数が異なる場合でも同様に一貫して0.798である
希薄化の係数#
Cohen (1983)によれば、Peters and Van Voorhis (1940)が報告しているような二値化の希薄化の係数は次のように一般化できる
\(h\):標準正規分布の密度関数の縦軸(the ordinate of the standard unit normal curve)
\(p\):二値化した変数の比率
例えば標準正規分布に従う連続変数\(X\)を平均値で二値化した場合は分割点が0なので、標準正規分布の密度関数
より、
\(h = \phi(0) \approx 0.3989\)
\(p = 0.5\)
となり、
となる。
from scipy.stats import norm
p = 0.5
norm.pdf(0) / np.sqrt(p * (1 - p))
np.float64(0.7978845608028654)
biserial相関係数#
なお、二値化変数と連続変数の間の相関係数の一種である Biserial相関係数 はCohen (1983)が述べたような希薄化の係数の逆数をピアソンの積率相関係数に掛けて補正する(Spearmanの希薄化の修正式を使う)タイプの相関係数である
# 二変量標準正規分布からのサンプルとする
import numpy as np
n = 10000
rho = 0.5
np.random.seed(0)
data = np.random.multivariate_normal(mean=[0, 0], cov=[[1, rho], [rho, 1]], size=n)
x, y = data[:, 0], data[:, 1]
# 平均値を閾値として二値化されたとする
yd = 1 * (y >= np.mean(y)) # 二値化
# Cohen (1983) にも記載の希薄化率 e
from scipy.stats import norm
p = np.mean(yd) # 離散化後に y_d == 1 の比率
z = norm.ppf(p) # 閾値の位置(= y_d == 1の比率、の標準正規分布上の値)
h = norm.pdf(z) # 標準正規分布の閾値での確率密度
e = h / np.sqrt(p * (1 - p))
# biserial 相関係数
from scipy.stats import pearsonr
r = pearsonr(x, yd).statistic
r_bi = (1 / e) * r
print(f"真の相関ρ={rho:.3f}, 観測値r={r:.3f}, 誤差e={e:.3f}, 補正後(biserial)={r_bi:.3f}")
真の相関ρ=0.500, 観測値r=0.396, 誤差e=0.798, 補正後(biserial)=0.496
Bedrick (1995) は離散化の仕方や離散化前の潜在変数が従う分布などの条件によって希薄化の強さが異なることを報告している。
参考文献#
Cohen, J. (1983). The cost of dichotomization. Applied psychological measurement, 7(3), 249-253.
Drasgow, F. (1986). Polychoric and polyserial correlations. In S. Kotz & N. Johnson (Eds.), The Encyclopedia of Statistics.
Peters, C. C., & Van Voorhis, W. R. (1940). Statistical procedures and their mathematical bases. McGraw-Hill.
-
テスト理論的な観点から説明
-
歴史的な経緯も含め説明