본문 바로가기

Library/Mathematics

Variance and Deviation : 분산과 편차

통계학에서 분산(variance)이란 값들의 분포를 나타내는 여러 지표 중 하나이며, 이것은 주어진 값이 평균(mean)에서 얼마나 떨어져 있는가를 나타낸다. 분산은 이론적인 확률분포를 나타내기 위한 매개변수이며, 분산과 같은 샘플링된 데이터로부터 주어진 값의 추정치를 어림잡기 위해 사용될 수 있다.

분산의 정의는 다음과 같다. 어떤 변수 가 주어졌을 때, 그것의 기대값(평균)이 일 때, 의 분산는 다음과 같이 정의된다.




이 정의는 임의의 변수가 이산적(discrete)이거나 연속적(continuous)이거나, 혹은 어느 쪽에도 속하지 않더라도 적용된다. 위의 정의는 다음과 같이 확장될 수 있다.
 









임의의 변수들이 연속적일 때, 분산은 다음과 같다.




이산변수의 경우, 분산은 다음과 같다.




편차(deviation)는 관측값과 평균 사이의 간격과 비의 값에 대한 차이를 측정한 값이다. 편차의 부호는 측정된 값이 평균보다 큰지 작은지를 나타내며, 편차의 값은 관측값이 평균과 얼마나 차이가 나는지를 알려준다. 전체 집합에서 각 요소의 편차를 모두 더한 값은 0이다.

표준편차(standard deviation), 또는 확률분포(probability disttribution)는 분산의 제곱을 더한 값의 제곱근이다. 즉, 어떤 임의의 변수 X가 주어지고, 는 평균이라고 할 때, 다음과 같이 정의할 수 있다.







Reference
http://en.wikipedia.org/wiki/Variance
http://en.wikipedia.org/wiki/Standard_deviation