기브스 표집(Gibbs sampling)은 두개 이상의 확률 변수결합 확률 분포로부터 일련의 표본을 생성하는 확률적 알고리즘으로, 결합 확률 분포나 그에 관련된 확률 계산을 근사하기 위해 사용된다.[1]

기브스 표집은 메트로폴리스-해스팅스 알고리즘의 특별한 예이고, 따라서 마르코프 연쇄 몬테 카를로 알고리즘의 한 예이다. 이 알고리즘은 물리학자 조사이어 윌러드 기브스의 이름을 따서 명명되었다.

알고리즘

편집

 개의 확률변수  의 결합 확률 분포  로부터  개의 표본  를 얻으려고 할 때, 기브스 표집은 다음과 같이 동작한다.

  1. 임의의  을 선택한다.
  2. 각 변수  에 대하여, 현재의 값을 기반으로 한 새로운 값을 조건부 확률분포  에서 표집한다.
  3.   에 추가한다.

실제 사용 시에는 처음 수집되는 표본을 사용하지 않고 버리게 된다. 이것은 기브스 표집에서 수집되는 표본은 서로 독립적이지 않고 마르코프 연쇄에 속하기 때문인데, 표본의 앞 부분은 초기 상태  에 크게 의존하지만 충분히 많은 시행이 지난 후에는 초기 상태에 관계없이  에 기반한 표본을 수집할 수 있다.

조건부 확률분포와 결합 확률분포의 관계

편집

위의 조건부 확률분포는 결합 확률분포에 비례한다.

 

수학적 배경

편집

기브스 표집에서 주어진 표본  에 대하여,  번째 변수를 변경하여 다음 표집  을 수집할 확률은 다음과 같다.

 

여기에서  는 모든 가능한 표본의 집합을 의미하며,    가 i번째를 제외한 모든 값이 같다는 것을 의미한다. 이때 다음의 성질이 성립한다.

 

이러한 성질은 변수를 하나만 변경하는 것이 아니라 각 변수를 차례대로 변경하여  에서  를 얻을 때에도 동일하게 보존된다.

이때  와 위의 표집 확률을 기반으로 하는 마르코프 연쇄를 구성하면, 이 마르코프 연쇄는 가역적(reversible)이다. 가역적 성질은 정상(stationary) 성질을 포함하는데, 이것은 표본을 연속적으로 수집할 때 표본의 수집 확률은 초기 표본에 관계없이  에 수렴한다는 것을 의미한다.

단점

편집

기브스 표집은 변수를 하나씩 바꾸어가며 표본을 수집하기 때문에, 중간 상태의 확률이 작을 경우 올바른 근사를 위해 많은 표본이 필요하다는 단점이 있다. 가령 0과 1의 두 값을 갖는 변수 두 개에 대한 확률 분포  에 대하여,   의 값은 높지만   의 값이 작을 경우,  에서  를 표집하기 위해서는  이나  을 먼저 지나쳐야 하지만 이들의 확률이 작기 때문에 표본이 적을 경우 잘 표집되지 않을 수 있다.[2] 특히   이 0일 때에는 표집이 불가능한데, 이것은 기브스 표집이 가정하는 마르코프 연쇄의 정상 성질이 깨지기 때문이다.

둘러보기

편집

참고 문헌

편집
  1. George Casella, Edward I. George. “Explaining the Gibbs sampler”. 《The American Statistician'》. 
  2. Radford M. Neal (1995). “Suppressing Random Walks in Markov Chain Monte Carlo Using Ordered Overrelaxation”.