確率変数と期待値・分散#

確率変数#

\(\Omega\)を全事象、\(\mathcal{B}\)\(\Omega\)の可測集合族、\(P\)\((\Omega, \mathcal{B})\)上の確率とするとき、\(\omega \in \Omega\)に対して実数値\(X(\omega) \in \mathbb{R}\)を対応させる関数\(X\)確率変数(random variable)という。

任意の実数\(x\)に対して\(X\leq x\)である確率は

\[ P(X\leq x) = P(\{\omega \in \Omega| X(\omega) \leq x\}) \]

として、確率\(P\)を用いて与えることができる。

なお、\(X(\omega)=x\)\(x\)を実現値という。実現値の全体を標本空間といい、\(\mathcal{X} = \{X(\omega)|\omega\in\Omega\}\)で表す。

累積分布関数#

確率変数Xの累積分布関数(cumulative distribution function: cdf)を

\[ F_X(x) = P(X \leq x) \]

と定義する。累積分布関数は単に分布関数とも呼ばれる。

分布関数\(F_X(x)\)が階段関数(step function)のとき、\(X\)離散型確率変数(discrete random variable)といい、\(F_X(x)\)が連続関数のとき、\(X\)連続型確率変数(continuous random variable)という。

確率関数#

離散型確率変数\(X\)に対して

\[ f_X(x)=P(X=x) \]

確率質量関数(probability mass function: pmf)という。

連続型確率変数\(X\)に対して

\[ F_X(x) = \int^x_{-\infty} f_X(t) dt, \quad -\infty < x < \infty \]

となる関数\(f_X(x)\)が存在するとき、\(f_X(x)\)確率密度関数(probability density function: pdf)という。

定義から、\(f_X(x)\)\(F_X(x)\)を微分することで得られる。

\[ f_X(x) = \frac{d F_X(x)}{dx} \]

期待値#

確率変数\(X\)の関数\(g(X)\)期待値(expected value)を\(E[g(X)]\)で表す。\(E[g(X)]\)

\(X\)が離散型確率変数のとき、

\[ E[g(x)] = \int^{\infty}_{-\infty} g(x) f_X(x) dx \]

\(X\)が連続型確率変数のとき、

\[ E[g(x)] = \sum_{x_i \in \mathcal{X}} g(x_i) f_X(x_i) \]

と定義される。

\(E[X]\)\(X\)の期待値もしくは平均(mean)という。

期待値の演算規則#

線形関数のため、線形性をもつ

\(a,b\in\mathbb{R}\)による線形関数\(g(X) = a+bX\)の期待値を考える

\[ \operatorname{E}(a+b X) = a + b \operatorname{E}(X) \]
証明

例として離散型確率変数とする

\[\begin{split} \begin{aligned} \operatorname{E}(a+b X) &= \sum_{x_i\in \mathcal{X}} (a + b x_i) f_X(x_i)\\ &= a \underbrace{ \sum_{x_i\in \mathcal{X}} f_X(x_i) }_{=1} + b \underbrace{ \sum_{x_i\in \mathcal{X}} x_i f_X(x_i) }_{=\operatorname{E}(X)}\\ &= a + b \operatorname{E}(X) \end{aligned} \end{split}\]

分散#

\(E[(X- E[X])^2]\)\(X\)分散(variance)という。

\[ \operatorname{Var}(X) = E[(X- E[X])^2] = \sum (x_i - \operatorname{E}(X))^2 f(x_i) \]
分散の別表現
\[ \operatorname{Var}(X) = \operatorname{E}[(X - \operatorname{E}[X])^2] = \operatorname{E}[X^2] - \operatorname{E}[X]^2 \]
証明
\[\begin{split} \begin{aligned} \operatorname{E}[(X - \operatorname{E}[X])^2] &= \operatorname{E}[X^2 - 2 \operatorname{E}[X] X + \operatorname{E}[X]^2]\\ &= \operatorname{E}[X^2] - 2 \operatorname{E}[X]^2 + \operatorname{E}[X]^2\\ &= \operatorname{E}[X^2] - \operatorname{E}[X]^2\\ \end{aligned} \end{split}\]

分散も線形関数のため、線形性をもつ

\(a,b\in\mathbb{R}\)に対し、

\[ \operatorname{Var}(a+b X)=b^2 \operatorname{Var}(X) \]

多次元確率変数の分布#

2つの確率変数\(X,Y\)の組を考える。

離散分布の場合#

同時分布#

\(X,Y\)がどちらも離散型確率変数で、\(X\)\(\mathcal{X}=\{0,1,2,...\}\)上に、\(Y\)\(\mathcal{Y}=\{0,1,2,...\}\)上に値をとるとする。\(X=x\)かつ\(Y=y\)である確率\(P(\{X=x\}\cap\{Y=y\})\)\(P(X=x, Y=y)\)で表し、

\[ P(X=x, Y=y) = f_{X,Y}(x,y), \hspace{2em} (x,y) \in \mathcal{X\times Y} \]

と書くことにする。

\(X,Y\)と2次元の確率変数の場合、事象も2次元空間にあり、\((x,y)\)の集まった部分集合になる。ある事象\(A\)の確率は

\[ P((X,Y) \in A) = \sum_{(x,y)\in A} f_{X,Y}(x,y) \]

と書くことができる。これを同時分布(joint distribution)といい、\(f_{X,Y}(x,y)\)同時確率関数(joint probability function)という。

周辺分布#

\(\mathcal{X}\)上の集合\(B\)に対して\(\{X \in B\}\)という事象は\(\{X \in B\}\cap\{Y \in \mathcal{Y}\}\)もしくは\(\{(X,Y) \in B\times\mathcal{Y}\}\)と同等なので、

\[\begin{split} \begin{align} P(X\in B) &= P((X, Y) \in B \times \mathcal{Y})\\ &= \sum_{(x,y)\in B\times \mathcal{Y}} f_{X,Y} (x,y)\\ &= \sum_{x\in B} \sum_{y=0}^\infty f_{X,Y} (x,y) \end{align} \end{split}\]

と書くことができる。\(P(X\in B)\)\(X\)周辺分布(marginal distribution)といい、

\[ f_X(x) = \sum^\infty_{y=0} f_{X,Y}(x,y) \]

\(X\)周辺確率関数 という。

期待値#

関数\(g(X,Y)\)の同時確率関数\(f_{X,Y}(x,y)\)に関する期待値は次のように定義される。

\[ E[g(X,Y)] = \sum_{x=0}^\infty \sum_{y=0}^\infty g(x,y) f_{X,Y}(x,y) \]

連続分布の場合#

同時確率#

\(X,Y\)がともに\(\mathbb{R}\)上の連続型確率変数とし、\(\mathbb{R}^2\)上の集合\(C\)に対して確率が

\[ P((X,Y)\in C)=\int \int_{(x,y)\in C} f_{X,Y}(x,y) dxdy \]

と表されるとき、\(f_{X,Y}(x,y)\)同時確率密度関数(joint probability density function)という。

周辺確率#

\(X\)周辺確率密度関数(marginal probability density function)は

\[ f_X(x)=\int^\infty_{-\infty} f_{X,Y}(x,y) dy \]

で与えられる。

期待値#

次のように定義される

\[ E[g(X,Y)] = \int^\infty_{-\infty} \int^\infty_{-\infty} g(x,y) f_{X,Y}(x,y) dxdy \]

条件付き確率・期待値#

条件付き確率#

\(f_X(x)\neq 0\)なる\(x\)に対して、\(X=x\)のもとでの\(Y=y\)の条件付き確率を

\[ f_{Y \mid X}(y \mid x)=P(Y=y \mid X=x)=\frac{f_{X, Y}(x, y)}{f_X(x)} \]

と定義する

条件付き期待値#

離散型

\[ E[Y \mid X=x]=\sum_{y=0}^{\infty} y f_{Y \mid X}(y \mid x)=\frac{\sum_{y=0}^{\infty} y f_{X, Y}(x, y)}{f_X(x)} \]

連続型確率分布において、関数\(g(x, y)\)に対する条件付き期待値は

\[ E[g(x, y) \mid X=x]=\int_{-\infty}^{\infty} g(x, y) f_{Y \mid X}(y \mid x) d y=\frac{\int_{-\infty}^{\infty} g(x, y) f_{X, Y}(x, y) d y}{f_X(x)} \]

となる。

条件付き分散#

\[\begin{split} \begin{aligned} \operatorname{Var}(Y \mid X=x) & =E^{Y \mid X}\left[\left(Y-E^{Y \mid X}[Y \mid X=x]\right)^2 \mid X=x\right] \\ & =E^{Y \mid X}\left[Y^2 \mid X=x\right]-\left(E^{Y \mid X}[Y \mid X=x]\right)^2 \end{aligned} \end{split}\]

繰り返し期待値の法則#

条件付き期待値\(E[Y|X]\)\(X\)について期待値をとったものは\(E[Y]\)に等しい。すなわち、

\[ E_X[E[Y|X]] = E[Y] \]

である。これを 繰り返し期待値の法則 (the law of total expectation, the law of iterated expectations: LIE)という。

証明:

\[\begin{split} \begin{align} E[Y] &= \int \int y f_{X,Y}(x, y) dy dx\\ &= \int \left( \int y \frac{f_{X,Y}(x, y)}{f_X(x)} dy \right) f_X(x) dx\\ &= \int E[Y|X=x] f_X(x) dx\\ &= E_X[E[Y|X]] \end{align} \end{split}\]

期待値ベクトル#

\(X = (X_1,\dots,X_n)^\top\)\(n\)次元確率変数ベクトルとする。各変数の期待値のベクトル

\[\begin{split} E[X] = \mu = \begin{pmatrix} E[X_1] \\ \vdots \\ E[X_n] \end{pmatrix} \end{split}\]

を期待値ベクトルという。

分散共分散行列#

\[ \sigma = \operatorname{Var}[X] = E[(X - E[X])(X - E[X])^\top] \]

\(a\)を定数ベクトル、\(B\)を定数行列とすると

\[ \operatorname{Var}[a + B X] = B \operatorname{Var}[X] B^\top \]

となる。

証明
\[\begin{split} \begin{aligned} \operatorname{Var}[a + B X] &= E[(a + B X - E[a + B X])(a + B X - E[a + B X])^\top]\\ &= E[(B X - E[B X])(B X - E[B X])^\top] \quad (\because aは定数のためE[a] = a)\\ &= E[B (X - E[X])[B(X - E[X])]^\top]\\ &= E[B (X - E[X])(X - E[X])^\top B^\top] \quad (\because (AB)^\top = B^\top A^\top)\\ &= B E[(X - E[X])(X - E[X])^\top ] B^\top \\ &= B \operatorname{Var}[X] B^\top \end{aligned} \end{split}\]

参考#

  • 久保川 達也(2017)『現代数理統計学の基礎』、共立出版。