허용 오차

허용 오차(margin of error) 또는 오차 범위는 설문 조사 등의 결과에서 랜덤 샘플링 오차의 양을 나타내는 통계학 용어다. 한 설문에 대한 허용 오차가 클 수록 그 설문의 결과가 전체의 의견을 잘 반영하지 못할 수 있는 확률이 높다는 의미다.

원하는 오차 범위(허용 오차) ε이 나오기 위해서 필요한 표본 크기(sample size) n을 계산할 수 있다. 표본이 클 수록 오차는 작아지지만, 조사 비용이 늘어난다.

계산

ε: 오차 범위(허용 오차, margin of error). "여론 조사 결과 신뢰 수준 95%에 지지도가 38±3%로 나왔다"와 같은 식으로 오차 범위를 퍼센트(백분율)로 표기하려면 ε에 100을 곱해준다.

z: 신뢰 수준과 관련된 z-값(z-values, z-score). 신뢰 수준 95%일 경우 약 1.96이며, 99%일 경우 약 2.58이다.

σ²: 모 분산의 추정치. 사전 정보나 경험을 토대로 추정하거나 선행 연구(pilot study)에 의해 추정한다.

n: 표본의 개수(sample size). 1,000명을 대상으로 한 설문 조사의 경우 n = 1,000이다.

N: 모집단(population)의 크기

p: 조사 특성값을 가질 비율의 추정치. 사전 정보나 경험을 토대로 추정하거나 선행 연구(pilot study)에 의해 추정한다.

1-p: 조사 특성값을 가지지 않을 비율의 추정치.

$\epsilon =z{\sqrt {\frac {\sigma ^{2}}{n}}}$

$\epsilon =z{\sqrt {\frac {p(1-p)}{n}}}$

분산 σ² 대신 p(1-p)를 쓸 수 있다.

$n=z^{2}{\frac {\sigma ^{2}}{\epsilon ^{2}}}$

오차 범위 공식의 양변을 제곱하여 유도한 공식이다.

위에서 ε의 단위는 평균값의 단위와 같다.

$n=z^{2}{\frac {p(1-p)}{\epsilon ^{2}}}$

위에서 ε의 단위는 비율이다.

위의 계산식들은 표본 크기에 비해 모집단 크기가 매우 커서 모집단 크기가 허용 오차에 주는 효과를 무시할 수 있을 경우에 해당한다. 그러나 그렇지 않은 경우에는 허용 오차를 계산할 때 ${\sqrt {\frac {N-n}{N-1}}}$ 을 곱해야 한다.

이를테면, 분산을 모르는 경우의 오차 범위 $\epsilon =z{\sqrt {\frac {p(1-p)(N-n)}{n(N-1)}}}$ 이 된다.