표준편차, 분산에 관해 참고하기 좋은 자료

 

산포도 측정: 범위, 분산 & 표준편차 (동영상) | 양적 자료 요약 | 칸아카데미

산포도를 측정하는 가장 일반적인 세 가지 값에 대해 논의해 봅시다.

ko.khanacademy.org

 

편차(deviation)

편차(deviation)는 관측값(y)에서 평균 또는 중앙값을 뺀 것이다. (평균(m)에서 멀어진 거리이다.)

편차를 구하는 공식 y바는 평균을 의미.

 

"한 집단내의 편차를 모두 더하면 항상 0이 된다." 이것은 편차의 특징인데, 눈에 새겨두고 분산 설명을 읽어보자.

분산(variance)

분산이란 분포의 모양을 결정하는 양이다. 그리고 편차들의 제곱의 평균이다.

 

분산이 왜 나오게 된걸까? 예시를 들어서 쉽게 설명하자면, 내 성적이 평균에서 얼마나 떨어져 있는지는 편차를 통해서 확인해볼 수 있다. 그런데, 이 편차를 이용해서 내가 속해있는 집단(수집한 자료)에서 평균적인 편차를 구할 수 있지는 않다. 이것에 대한 근거는 편차의 특징을 생각해보면 되는데, 주어진 표본에서 편차를 모두 더하면 항상 0이 된다. 숫자 0으로는 평균을 구할 수 없기 때문에 다른 방법을 고안하게 되는데, 그리하여 나온 것이 분산이다.

 

위의 말을 종합하여 분산 공식은 다음처럼 나타 낼 수 있다.

xi - m은 편차를 의미한다

 

관측값에서 평균을 뺀 값을 제곱하고(편차를 제곱), 그것을 모두 더한 전체 개수로 나눠서 구한다.

즉, 편차 제곱의 평균이다.

 

분산이 유용한 예시를 보자.

식 1
식2

이렇게 평균값이 똑같이 10인 case가 두 가지있다. 그러나, 둘의 분산을 확인해보면

 

 

 

두 식의 평균은 똑같이 10이지만, 1번째 식의 분산은 200이고, 2번째 식의 분산은 2이다. 분산이 적다는 소리는 숫자들이 모여있다는 소리이다. 그러나 보통 사람들은 값의 산포도를 볼 때 분산보다는 표준편차를 더욱 많이 얘기 하는데, 제곱으로 구해지는 수이다 보니, 값의 크기가 너무 커지기 때문이다. 

표준편차(standard deviation)

표준편차는 분산의 제곱근을 의미한다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.

 

그래서 위의 분산 값1 200, 분산 값2는 표준편차로 나타내었을 때

이다. 두 값은 10배 차이 나므로, 서로 떨어져 있는 숫자의 거리는 10배라고 할 수 있다.

'수학 > 통계학' 카테고리의 다른 글

[개념이해] 독립변수와 종속변수  (0) 2020.09.03