학습목표
공분산의 특성을 이해하고 활용할 수 있다.
핵심 키워드
- 공분산(covariance)
- 상관(correlation)
- 다항분포(multinomial distribution)
- 이항분포(binomial distribution)
- 초기하분포(hypergeometric distribution)
학습하기
학습목표
공분산의 특성을 이해하고 활용할 수 있다.
핵심 키워드
학습하기
학습내용
공분산(covariance)
정의) Cov(X,Y) = E[(X-(E(X))(Y-E(Y))]Cov(X,Y)=E[(X−(E(X))(Y−E(Y))]
= E(XY) - E(X)E(Y)=E(XY)−E(X)E(Y)
특성
\Rightarrow Var(X_1+...+X_n) = Var(X_1) +...+Var(X_n) +2 \displaystyle \sum _{i⇒Var(X1+...+Xn)=Var(X1)+...+Var(Xn)+2i<j∑Cov(Xi,Xj)
정리) X, YX,Y가 독립일 때, Cov(X, Y) = 0Cov(X,Y)=0
※ 역은 성립하지 않음.
반례) Z \sim N(0,1)Z∼N(0,1), X=Z,X=Z, Y = Z^2Y=Z2 이라 할 때,
Cov(X, Y) = E(XY)- E(X)E(Y)Cov(X,Y)=E(XY)−E(X)E(Y)
= E(Z^3) - E(Z)E(Z^2) = 0=E(Z3)−E(Z)E(Z2)=0
따라서, X, YX,Y는 Cov(X, Y) = 0Cov(X,Y)=0 이지만 YY는 XX에 대한 함수이므로 절대 독립이 아니다.
(→ 상관계수는 선형적 관계를 측량하는 계수이다)
상관(Correlation)
정의) Corr(X, Y) = \displaystyle \frac{Cov(X, Y)}{sd(X)sd(Y)} = Cov(\frac{X-E(X)}{sd(X)}, \frac{Y-E(Y)}{sd(Y)})Corr(X,Y)=sd(X)sd(Y)Cov(X,Y)=Cov(sd(X)X−E(X),sd(Y)Y−E(Y))
정리) -1 \le Cov(X, Y) \le 1−1≤Cov(X,Y)≤1
증명) 표준화된 확률변수 X, YX,Y가 있다고 하자. Corr(X,Y) = \rhoCorr(X,Y)=ρ 이라 할 때,
Var(X+Y) = Var(X) +Var(Y) +2Cov(X, Y) = 2 + \rhoVar(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)=2+ρ
Var(X-Y) = Var(X) +Var(Y) -2Cov(X, Y) = 2 -\rhoVar(X−Y)=Var(X)+Var(Y)−2Cov(X,Y)=2−ρ
\therefore -1 \le \rho \le 1∴−1≤ρ≤1
ex) 다항분포
(X_1, ..., X_k) \sim Mult(n, \vec p)(X1,...,Xk)∼Mult(n,p⃗) 일 때, 모든 i, ji,j 에 대하여 Cov(x_i, x_j)Cov(xi,xj)는
i) i = ji=j 일 때, Cov(X_i, X_i) = Var(X_i) = np_i(1-p_i) Cov(Xi,Xi)=Var(Xi)=npi(1−pi)
ii) i \ne ji≠j 일 때, Cov(X_1, X_2) = cCov(X1,X2)=c 라 하였을 때,
Var(X_1+X_2) = np_1(1-p_1)+np_2(1-p_2) +2c Var(X1+X2)=np1(1−p1)+np2(1−p2)+2c
= n(p_1+p_2)(1-(p_1+p_2))=n(p1+p2)(1−(p1+p2))
\Rightarrow Cov(X_1, X_2) = -np_1p_2⇒Cov(X1,X2)=−np1p2
ex) 이항분포
X \sim Bin(n, p)X∼Bin(n,p) X = X_1+...+X_nX=X1+...+Xn (X_i \sim^{iid} Bern(p))(Xi∼iidBern(p))
Var(X_j) = E(X_j^2)-\{E(X)^2\}Var(Xj)=E(Xj2)−{E(X)2}
= p-p^2 = p(1-p) = pq=p−p2=p(1−p)=pq
\Rightarrow Var(X) = npq⇒Var(X)=npq ( \because Cov(X_i, X_j) = 0)(∵Cov(Xi,Xj)=0)
ex) 초기하분포
X \sim HyperGeo(w,b,n)X∼HyperGeo(w,b,n)
\rightarrow X = X_1+...+X_n→X=X1+...+Xn (X_j = 1(Xj=1 j번째 공이 흰색인 경우. 아닌 경우 0)0)
Var(X) = nVar(X_1)+2\displaystyle {n\choose 2} Cov(X_1,X_2)Var(X)=nVar(X1)+2(2n)Cov(X1,X2)
Cov(X_1, X_2) = E(X_1X_2)- E(X_1)E(X_2)Cov(X1,X2)=E(X1X2)−E(X1)E(X2)
= \displaystyle \frac{w(w-1)}{(w+b)(w+b-1)}-( \frac{w}{w+b})^2=(w+b)(w+b−1)w(w−1)−(w+bw)2