대표문제 7번의 A부동산을 보면,

수익률  12%   14%   16%

확률     15%   75%   10%

 

여기서 평균은 0.12*0.15+0.14*0.75+0.16*0.1=0.139 로 구합니다.

분산은 (0.139-0.12)^2*0.15+(0.139-0.14)^2*0.75+(0.139-0.16)^2*0.1=0.0001

(이건 정확히 하면 0.000099입니다. 소수점 5자리에서 반올림한 거죠)

 

 

 

물론 분산에 루트 씌워서 표준편차 계산하구요.

공식으로 쓰면 <분산=(평균-개별값)^2*확률> 이겠죠.

 

 

 

 

 

 

 

 

 

이건 이해가 되는데, 뒤의 응용문제 1번이 이해가 안됐습니다. (단위:천원)

매매가격   120,000   120,500   122,500   124,000   126,000   126,500   127,000

매매빈도      3         1          4         2          2          1         1

 

여기서 평균은 (120,000*3+.....+127,000*1)/14=123,143 으로 구합니다.

(여기서 14는 매매빈도를 모두 합한 숫자이죠.)

 

 

 

 

 

이는 결국 120,000*3/14+....+127,000*1/14 하고 같고 위의 대표문제 7의 평균을 구하는 논리와 같습니다.

 

3/141/14 모두 확률을 의미하니까요.

 

 

그런데 분산을 구하는 논리가 다릅니다.

 

 

{(123,143-120,000)^2*3+....+(123,143-127,000)^2*1}/(14-1) 이라는 거죠.

 

 

문제는 왜 (14-1)냐는 거죠. 대표문제 7번의 분산 논리라면 그냥 14여야 하는데...

 

 

 

 

일단 이 차이를 이해하기 위해 통계용어 두 가지를 이해해야 합니다. ‘모집단표본입니다. 만약에 찬반투표를 하는데 100명이 참여했다고 보죠. 그런데 투표 전에 찬성률을 알아보기 위해 20명을 선정해 찬반을 물으니 12명이 찬성했습니다. 우린 이를 미루어 찬반투표의 예상 찬성률을 60%로 예측합니다. 이때 전체 투표 참여인원 100명이 모집단이고 그중 임의로 추출한 20명이 표본입니다. 분산이나 표준편차를 계산할 때도 100명 전체에 대한 표준편차는 모집단 표준편차이고, 20명에 대한 표준편차는 표본의 표준편차입니다. 둘은 비슷하지만 반드시 일치하지는 않습니다. 표본 20명의 의견이 모집단 전체의 의견을 정확히 반영하지 않을 수도 있기 때문이죠. 선거 때 출구여론조사와 개표결과가 비슷하지만 반드시 일치하지만은 않는 것과 마찬가지인 거죠.

 

 

 

 

 

얘기가 장황해졌는데 위의 두 문제를 보면 대표문제 7번은 모집단의 분포표를, 응용문제 1번은 표본의 분포표를 다루고 있음을 알 수 있습니다. 대표문제 7번의 확률은 모든 값을 합하면 100% 즉 전체 모집단을 전제로 하고 있다는 거죠. 응용문제 1번은 확률대신 그냥 빈도수로 표현되고 있습니다.

 

 

 

비록 문제에선 14채 중에서 이러하다는 식으로 언급해 14채 자체를 모집단처럼 언급하고 있지만, 전체 합이 100%인 확률로 표현되지 않는 한 이는 모집단에서 추출한 표본이라고 이해해야 합니다.

 

 

 

 

 

모집단이나 표본이나 평균은 같은 방법으로 구하지만 분산에 있어서는 모집단은 <(평균-개별값)^2*확률>, 표본은 <(평균-개별값)^2*빈도수/(빈도수의 합-1)>로 구하는 방식이 달라집니다.(표준편차는 여기에 루트 씌우면 되고요) 후자의 (빈도수의 합-1)은 대부분의 통계학 서적이 확률문제를 고려하여 그렇게 정의한답니다. 제가 본 책에서는 개념상 그냥 (빈도수의 합)으로 정의하더군요.

 

 

 

 

 

이 경우 <빈도수/빈도수의 합>이 되어 그냥 <확률>이 되고, 모집단의 분산과 표본의 분산이 같아지죠. 즉 양자는 개념상으로는 같지만 실제 풀이에서는 약간의 차이를 갖게 됩니다. 그래서 여러분이 문제를 풀 때도 개별 값이 확률로 표현되는지 빈도수로 표현되는지에 따라 모집단의 표준편차 혹은 표본의 표준편차로 각각 달리 풀어야합니다.

 

 

 

 

계산기에서도 이 둘은 달리 표현됩니다. 응용문제 1의 데이터를 이용해 계산기로 표준편차를 구해보죠. 카시오 9860으로 설명합니다. 메인메뉴 2STAT로 들어가셔서 List1에 매매가격을, List2에 매매빈도를 입력합니다. 그리고 나서 F2(CALC) 누르고 F6(SET)를 누릅니다. 위에서 두 번째줄 1Var Freq로 커서를 옮기면 아래 메뉴가 F1(1) F2(LIST)로 뜰겁니다.

 

 

 

 

 

원래는 1로 셋팅되어 있을텐데 이를 F2를 눌러 LIST2로 셋팅해야합니다. 1List1의 모든 값의 빈도수를 무조건 1, List2List2의 값을 빈도수로 쓰기 때문입니다. 이는 한번만 셋팅하면 다음부터는 건드릴 필요 없습니다. EXIT버튼을 눌러 다시 리스트화면으로 빠져나온후, F1(1VAR)을 누르면 각종 수치들이 뜹니다. 회귀분석에서 익숙한 수치들이죠? 이중에 표본의 표준편차는 6번째 줄의 sx=2514.7914입니다.

 

 

 

 

그리고 그 윗줄의 σx=2423.31363이 모집단의 표준편차입니다.(σ시그마라고 읽습니다.) 즉 계산기는 각 매매빈도를 14채에 대한 확률로 바꿔서 모집단의 표준편차까지 계산한 거죠. 그래서 대표문제 7번의 수치를 입력하면 σx값은 나오지만 sx는 나오지 않습니다.(대표문제 7번을 계산기로 계산하면 교재의 답이 틀린 걸 발견하시게 될 겁니다. 우리 계산기를 보통 소수점 이하 5자리로 고정하기 때문에 생긴 결과죠)

 

 

 

+ Recent posts