確率変数と期待値・分散#

確率変数#

Ωを全事象、BΩの可測集合族、P(Ω,B)上の確率とするとき、ωΩに対して実数値X(ω)Rを対応させる関数X確率変数(random variable)という。

任意の実数xに対してXxである確率は

P(Xx)=P({ωΩ|X(ω)x})

として、確率Pを用いて与えることができる。

なお、X(ω)=xxを実現値という。実現値の全体を標本空間といい、X={X(ω)|ωΩ}で表す。

累積分布関数#

確率変数Xの累積分布関数(cumulative distribution function: cdf)を

FX(x)=P(Xx)

と定義する。累積分布関数は単に分布関数とも呼ばれる。

分布関数FX(x)が階段関数(step function)のとき、X離散型確率変数(discrete random variable)といい、FX(x)が連続関数のとき、X連続型確率変数(continuous random variable)という。

確率関数#

離散型確率変数Xに対して

fX(x)=P(X=x)

確率質量関数(probability mass function: pmf)という。

連続型確率変数Xに対して

FX(x)=xfX(t)dt,<x<

となる関数fX(x)が存在するとき、fX(x)確率密度関数(probability density function: pdf)という。

定義から、fX(x)FX(x)を微分することで得られる。

fX(x)=dFX(x)dx

期待値#

確率変数Xの関数g(X)期待値(expected value)をE[g(X)]で表す。E[g(X)]

Xが離散型確率変数のとき、

E[g(x)]=g(x)fX(x)dx

Xが連続型確率変数のとき、

E[g(x)]=xiXg(xi)fX(xi)

と定義される。

E[X]Xの期待値もしくは平均(mean)という。

期待値の演算規則#

線形関数のため、線形性をもつ

a,bRによる線形関数g(X)=a+bXの期待値を考える

E(a+bX)=a+bE(X)
証明

例として離散型確率変数とする

E(a+bX)=xiX(a+bxi)fX(xi)=axiXfX(xi)=1+bxiXxifX(xi)=E(X)=a+bE(X)

分散#

E[(XE[X])2]X分散(variance)という。

Var(X)=E[(XE[X])2]=(xiE(X))2f(xi)
分散の別表現
Var(X)=E[(XE[X])2]=E[X2]E[X]2
証明
E[(XE[X])2]=E[X22E[X]X+E[X]2]=E[X2]2E[X]2+E[X]2=E[X2]E[X]2

分散も線形関数のため、線形性をもつ

a,bRに対し、

Var(a+bX)=b2Var(X)

多次元確率変数の分布#

2つの確率変数X,Yの組を考える。

離散分布の場合#

同時分布#

X,Yがどちらも離散型確率変数で、XX={0,1,2,...}上に、YY={0,1,2,...}上に値をとるとする。X=xかつY=yである確率P({X=x}{Y=y})P(X=x,Y=y)で表し、

P(X=x,Y=y)=fX,Y(x,y),(x,y)X×Y

と書くことにする。

X,Yと2次元の確率変数の場合、事象も2次元空間にあり、(x,y)の集まった部分集合になる。ある事象Aの確率は

P((X,Y)A)=(x,y)AfX,Y(x,y)

と書くことができる。これを同時分布(joint distribution)といい、fX,Y(x,y)同時確率関数(joint probability function)という。

周辺分布#

X上の集合Bに対して{XB}という事象は{XB}{YY}もしくは{(X,Y)B×Y}と同等なので、

P(XB)=P((X,Y)B×Y)=(x,y)B×YfX,Y(x,y)=xBy=0fX,Y(x,y)

と書くことができる。P(XB)X周辺分布(marginal distribution)といい、

fX(x)=y=0fX,Y(x,y)

X周辺確率関数 という。

期待値#

関数g(X,Y)の同時確率関数fX,Y(x,y)に関する期待値は次のように定義される。

E[g(X,Y)]=x=0y=0g(x,y)fX,Y(x,y)

連続分布の場合#

同時確率#

X,YがともにR上の連続型確率変数とし、R2上の集合Cに対して確率が

P((X,Y)C)=(x,y)CfX,Y(x,y)dxdy

と表されるとき、fX,Y(x,y)同時確率密度関数(joint probability density function)という。

周辺確率#

X周辺確率密度関数(marginal probability density function)は

fX(x)=fX,Y(x,y)dy

で与えられる。

期待値#

次のように定義される

E[g(X,Y)]=g(x,y)fX,Y(x,y)dxdy

条件付き確率・期待値#

条件付き確率#

fX(x)0なるxに対して、X=xのもとでのY=yの条件付き確率を

fYX(yx)=P(Y=yX=x)=fX,Y(x,y)fX(x)

と定義する

条件付き期待値#

離散型

E[YX=x]=y=0yfYX(yx)=y=0yfX,Y(x,y)fX(x)

連続型確率分布において、関数g(x,y)に対する条件付き期待値は

E[g(x,y)X=x]=g(x,y)fYX(yx)dy=g(x,y)fX,Y(x,y)dyfX(x)

となる。

条件付き分散#

Var(YX=x)=EYX[(YEYX[YX=x])2X=x]=EYX[Y2X=x](EYX[YX=x])2

繰り返し期待値の法則#

条件付き期待値E[Y|X]Xについて期待値をとったものはE[Y]に等しい。すなわち、

EX[E[Y|X]]=E[Y]

である。これを 繰り返し期待値の法則 (the law of total expectation, the law of iterated expectations: LIE)という。

証明:

E[Y]=yfX,Y(x,y)dydx=(yfX,Y(x,y)fX(x)dy)fX(x)dx=E[Y|X=x]fX(x)dx=EX[E[Y|X]]

期待値ベクトル#

X=(X1,,Xn)n次元確率変数ベクトルとする。各変数の期待値のベクトル

E[X]=μ=(E[X1]E[Xn])

を期待値ベクトルという。

分散共分散行列#

σ=Var[X]=E[(XE[X])(XE[X])]

aを定数ベクトル、Bを定数行列とすると

Var[a+BX]=BVar[X]B

となる。

証明
Var[a+BX]=E[(a+BXE[a+BX])(a+BXE[a+BX])]=E[(BXE[BX])(BXE[BX])](aE[a]=a)=E[B(XE[X])[B(XE[X])]]=E[B(XE[X])(XE[X])B]((AB)=BA)=BE[(XE[X])(XE[X])]B=BVar[X]B

参考#

  • 久保川 達也(2017)『現代数理統計学の基礎』、共立出版。