[개념이해] 편차, 분산, 표준편차

수학/통계학

[개념이해] 편차, 분산, 표준편차

Artiper

|2020. 9. 3. 23:14

표준편차, 분산에 관해 참고하기 좋은 자료

산포도 측정: 범위, 분산 & 표준편차 (동영상) | 양적 자료 요약 | 칸아카데미

산포도를 측정하는 가장 일반적인 세 가지 값에 대해 논의해 봅시다.

ko.khanacademy.org

편차(deviation)

편차(deviation)는 관측값(y)에서 평균 또는 중앙값을 뺀 것이다. (평균(m)에서 멀어진 거리이다.)

"한 집단내의 편차를 모두 더하면 항상 0이 된다." 이것은 편차의 특징인데, 눈에 새겨두고 분산 설명을 읽어보자.

분산(variance)

분산이란 분포의 모양을 결정하는 양이다. 그리고 편차들의 제곱의 평균이다.

분산이 왜 나오게 된걸까? 예시를 들어서 쉽게 설명하자면, 내 성적이 평균에서 얼마나 떨어져 있는지는 편차를 통해서 확인해볼 수 있다. 그런데, 이 편차를 이용해서 내가 속해있는 집단(수집한 자료)에서 평균적인 편차를 구할 수 있지는 않다. 이것에 대한 근거는 편차의 특징을 생각해보면 되는데, 주어진 표본에서 편차를 모두 더하면 항상 0이 된다. 숫자 0으로는 평균을 구할 수 없기 때문에 다른 방법을 고안하게 되는데, 그리하여 나온 것이 분산이다.

위의 말을 종합하여 분산 공식은 다음처럼 나타 낼 수 있다.

관측값에서 평균을 뺀 값을 제곱하고(편차를 제곱), 그것을 모두 더한 전체 개수로 나눠서 구한다.

즉, 편차 제곱의 평균이다.

분산이 유용한 예시를 보자.

이렇게 평균값이 똑같이 10인 case가 두 가지있다. 그러나, 둘의 분산을 확인해보면

두 식의 평균은 똑같이 10이지만, 1번째 식의 분산은 200이고, 2번째 식의 분산은 2이다. 분산이 적다는 소리는 숫자들이 모여있다는 소리이다. 그러나 보통 사람들은 값의 산포도를 볼 때 분산보다는 표준편차를 더욱 많이 얘기 하는데, 제곱으로 구해지는 수이다 보니, 값의 크기가 너무 커지기 때문이다.

표준편차(standard deviation)

표준편차는 분산의 제곱근을 의미한다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.

그래서 위의 분산 값1 200, 분산 값2는 표준편차로 나타내었을 때

와

이다. 두 값은 10배 차이 나므로, 서로 떨어져 있는 숫자의 거리는 10배라고 할 수 있다.

'수학 > 통계학' 카테고리의 다른 글

[개념이해] 독립변수와 종속변수 (0)	2020.09.03