최대가능도방법 (最大可能度方法, 영어 : maximum likelihood method ) 또는 최대우도법 (最大尤度法)은 어떤 확률변수에서 표집 한 값들을 토대로 그 확률변수의 모수 를 구하는 방법이다. 어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도 를 최대로 만드는 모수를 선택하는 방법이다. 점추정 방식에 속한다.
어떤 모수
θ
{\displaystyle \theta }
로 결정되는 확률변수들의 모임
D
θ
=
(
X
1
,
X
2
,
⋯
,
X
n
)
{\displaystyle D_{\theta }=(X_{1},X_{2},\cdots ,X_{n})}
이 있고,
D
θ
{\displaystyle D_{\theta }}
의 확률 밀도 함수 나 확률 질량 함수 가
f
{\displaystyle f}
이고, 그 확률변수들에서 각각 값
x
1
,
x
2
,
⋯
,
x
n
{\displaystyle x_{1},x_{2},\cdots ,x_{n}}
을 얻었을 경우, 가능도
L
(
θ
)
{\displaystyle {\mathcal {L}}(\theta )}
는 다음과 같다.
L
(
θ
)
=
f
θ
(
x
1
,
x
2
,
⋯
,
x
n
)
{\displaystyle {\mathcal {L}}(\theta )=f_{\theta }(x_{1},x_{2},\cdots ,x_{n})}
여기에서 가능도를 최대로 만드는
θ
{\displaystyle \theta }
는
θ
^
=
argmax
θ
L
(
θ
)
{\displaystyle {\widehat {\theta }}={\underset {\theta }{\operatorname {argmax} }}\ {\mathcal {L}}(\theta )}
가 된다.
이때
X
1
,
X
2
,
⋯
,
X
n
{\displaystyle X_{1},X_{2},\cdots ,X_{n}}
이 모두 독립적이고 같은 확률분포를 가지고 있다면,
L
{\displaystyle {\mathcal {L}}}
은 다음과 같이 표현이 가능하다.
L
(
θ
)
=
∏
i
f
θ
(
x
i
)
{\displaystyle {\mathcal {L}}(\theta )=\prod _{i}f_{\theta }(x_{i})}
또한, 로그함수 는 단조 증가 하므로,
L
{\displaystyle {\mathcal {L}}}
에 로그를 씌운 값의 최댓값은 원래 값
θ
^
{\displaystyle {\widehat {\theta }}}
과 같고, 이 경우 계산이 비교적 간단해진다.
L
∗
(
θ
)
=
log
L
(
θ
)
=
∑
i
log
f
θ
(
x
i
)
{\displaystyle {\mathcal {L}}^{*}(\theta )=\log {\mathcal {L}}(\theta )=\sum _{i}\log f_{\theta }(x_{i})}
평균
μ
{\displaystyle \mu }
와 분산
σ
2
{\displaystyle \sigma ^{2}}
의 값을 모르는 정규분포 에서
x
1
,
x
2
,
⋯
,
x
n
{\displaystyle x_{1},x_{2},\cdots ,x_{n}}
의 값을 표집하였을 때, 이 값들을 이용하여 원래 분포의 평균과 분산을 추측한다. 이 경우 구해야 하는 모수는
θ
=
(
μ
,
σ
)
{\displaystyle \theta =(\mu ,\sigma )}
이다. 정규분포 의 확률 밀도 함수 가
f
μ
,
σ
(
x
i
)
=
1
2
π
σ
exp
(
−
(
x
i
−
μ
)
2
2
σ
2
)
{\displaystyle f_{\mu ,\sigma }(x_{i})={\frac {1}{{\sqrt {2\pi }}\sigma }}\exp({\frac {-(x_{i}-\mu )^{2}}{2\sigma ^{2}}})}
이고,
x
1
,
x
2
,
⋯
,
x
n
{\displaystyle x_{1},x_{2},\cdots ,x_{n}}
가 모두 독립이므로
L
(
θ
)
=
∏
i
f
μ
,
σ
(
x
i
)
=
∏
i
1
2
π
σ
exp
(
−
(
x
i
−
μ
)
2
2
σ
2
)
{\displaystyle {\mathcal {L}}(\theta )=\prod _{i}f_{\mu ,\sigma }(x_{i})=\prod _{i}{\frac {1}{{\sqrt {2\pi }}\sigma }}\exp({\frac {-(x_{i}-\mu )^{2}}{2\sigma ^{2}}})}
양변에 로그를 씌우면
L
∗
(
θ
)
=
−
n
2
log
2
π
−
n
log
σ
−
1
2
σ
2
∑
i
(
x
i
−
μ
)
2
{\displaystyle {\mathcal {L}}^{*}(\theta )=-{\frac {n}{2}}\log {2\pi }-n\log \sigma -{\frac {1}{2\sigma ^{2}}}\sum _{i}{(x_{i}-\mu )^{2}}}
가 된다. 식의 값을 최대화하는 모수를 찾기 위해, 양변을
μ
{\displaystyle \mu }
로 각각 편미분하여 0이 되는 값을 찾는다.
∂
∂
μ
L
∗
(
θ
)
=
1
σ
2
∑
i
(
x
i
−
μ
)
{\displaystyle {\frac {\partial }{\partial \mu }}{\mathcal {L}}^{*}(\theta )={\frac {1}{\sigma ^{2}}}\sum _{i}(x_{i}-\mu )}
=
1
σ
2
(
∑
i
x
i
−
n
μ
)
{\displaystyle ={\frac {1}{\sigma ^{2}}}(\sum _{i}x_{i}-n\mu )}
따라서 이 식을 0으로 만드는 값은
μ
^
=
(
∑
i
x
i
)
/
n
{\displaystyle {\widehat {\mu }}=(\sum _{i}x_{i})/n}
으로, 즉 표집한 값들의 평균이 된다. 마찬가지 방법으로 양변을
σ
{\displaystyle \sigma }
로 편미분하면
∂
∂
σ
L
∗
(
θ
)
=
−
n
σ
+
1
σ
3
∑
i
(
x
i
−
μ
)
2
{\displaystyle {\frac {\partial }{\partial \sigma }}{\mathcal {L}}^{*}(\theta )=-{\frac {n}{\sigma }}+{\frac {1}{\sigma ^{3}}}\sum _{i}(x_{i}-\mu )^{2}}
따라서 이 식을 0으로 만드는 값은 다음과 같다.
σ
2
=
∑
i
(
x
i
−
μ
)
2
/
n
{\displaystyle \sigma ^{2}=\sum _{i}(x_{i}-\mu )^{2}/n}
Lehmann, E. L.; Casella, G. (1998). 《Theory of Point Estimation》 (영어) 2판. Springer. ISBN 0-387-98502-6 .
Shao, Jun (1998). 《Mathematical Statistics》 (영어). New York: Springer. ISBN 0-387-98674-X .