표준편차, 분산에 관해 참고하기 좋은 자료
편차(deviation)
편차(deviation)는 관측값(y)에서 평균 또는 중앙값을 뺀 것이다. (평균(m)에서 멀어진 거리이다.)
"한 집단내의 편차를 모두 더하면 항상 0이 된다." 이것은 편차의 특징인데, 눈에 새겨두고 분산 설명을 읽어보자.
분산(variance)
분산이란 분포의 모양을 결정하는 양이다. 그리고 편차들의 제곱의 평균이다.
분산이 왜 나오게 된걸까? 예시를 들어서 쉽게 설명하자면, 내 성적이 평균에서 얼마나 떨어져 있는지는 편차를 통해서 확인해볼 수 있다. 그런데, 이 편차를 이용해서 내가 속해있는 집단(수집한 자료)에서 평균적인 편차를 구할 수 있지는 않다. 이것에 대한 근거는 편차의 특징을 생각해보면 되는데, 주어진 표본에서 편차를 모두 더하면 항상 0이 된다. 숫자 0으로는 평균을 구할 수 없기 때문에 다른 방법을 고안하게 되는데, 그리하여 나온 것이 분산이다.
위의 말을 종합하여 분산 공식은 다음처럼 나타 낼 수 있다.
관측값에서 평균을 뺀 값을 제곱하고(편차를 제곱), 그것을 모두 더한 전체 개수로 나눠서 구한다.
즉, 편차 제곱의 평균이다.
분산이 유용한 예시를 보자.
이렇게 평균값이 똑같이 10인 case가 두 가지있다. 그러나, 둘의 분산을 확인해보면
두 식의 평균은 똑같이 10이지만, 1번째 식의 분산은 200이고, 2번째 식의 분산은 2이다. 분산이 적다는 소리는 숫자들이 모여있다는 소리이다. 그러나 보통 사람들은 값의 산포도를 볼 때 분산보다는 표준편차를 더욱 많이 얘기 하는데, 제곱으로 구해지는 수이다 보니, 값의 크기가 너무 커지기 때문이다.
표준편차(standard deviation)
표준편차는 분산의 제곱근을 의미한다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.
그래서 위의 분산 값1 200, 분산 값2는 표준편차로 나타내었을 때
와
이다. 두 값은 10배 차이 나므로, 서로 떨어져 있는 숫자의 거리는 10배라고 할 수 있다.
'수학 > 통계학' 카테고리의 다른 글
[개념이해] 독립변수와 종속변수 (0) | 2020.09.03 |
---|