보편 근사 정리(Universal approximation theorem)는 하나의 은닉층을 갖는 인공신경망은 임의의 연속인 다변수 함수를 원하는 정도의 정확도로 근사할 수 있다는 정리이다. 모든 인공신경망과 모든 활성화 함수에 대해 증명된 것은 아니다.
1989년 조지 시벤코(Cybenko)가 발표한 시벤코 정리(Cybenko's theorem)는 다음과 같다.
φ {\displaystyle \varphi } 를 시그모이드 함수 형식의 연속 함수라 하자(예, φ ( ξ ) = 1 / ( 1 + e − ξ ) {\displaystyle \varphi (\xi )=1/(1+e^{-\xi })} ). [ 0 , 1 ] n {\displaystyle [0,1]^{n}} 또는 R n {\displaystyle R^{n}} 의 부분집합에서 실수의 연속 함수 f {\displaystyle f} 와 ϵ > 0 {\displaystyle \epsilon >0} 가 주어지면, 다음을 만족하는 벡터 w 1 , w 2 , … , w N , α {\displaystyle \mathbf {w_{1}} ,\mathbf {w_{2}} ,\dots ,\mathbf {w_{N}} ,\mathbf {\alpha } } , θ {\displaystyle \mathbf {\theta } } 와 매개 함수 G ( ⋅ , w , α , θ ) : [ 0 , 1 ] n → R {\displaystyle G(\mathbf {\cdot } ,\mathbf {w} ,\mathbf {\alpha } ,\mathbf {\theta } ):[0,1]^{n}\rightarrow R} 이 존재한다. | G ( x , w , α , θ ) − f ( x ) | < | ϵ | {\displaystyle |G(\mathbf {x} ,\mathbf {w} ,\mathbf {\alpha } ,\mathbf {\theta } )-f(x)|<|\epsilon |} for all x ∈ [ 0 , 1 ] n {\displaystyle \mathbf {x} \in [0,1]^{n}} 이때, G ( x , w , α , θ ) = ∑ i = 1 N α j φ ( w j T x + θ j ) {\displaystyle G(\mathbf {x} ,\mathbf {w} ,\mathbf {\alpha } ,\mathbf {\theta } )=\sum _{i=1}^{N}\alpha _{j}\varphi (\mathbf {w} _{j}^{T}\mathbf {x} +\theta _{j})} 이고, w j ∈ R n , α j , θ j ∈ R , w = ( w 1 , w 2 , … w N ) , α = ( α 1 , α 2 , … , α N ) , {\displaystyle \mathbf {w} _{j}\in R^{n},\alpha _{j},\theta _{j}\in R,\mathbf {w} =(\mathbf {w} _{1},\mathbf {w} _{2},\dots \mathbf {w} _{N}),\mathbf {\alpha } =(\alpha _{1},\alpha _{2},\dots ,\alpha _{N}),} θ = ( θ 1 , θ 2 , … , θ N ) {\displaystyle \mathbf {\theta } =(\theta _{1},\theta _{2},\dots ,\theta _{N})} 이다.
φ {\displaystyle \varphi } 를 시그모이드 함수 형식의 연속 함수라 하자(예, φ ( ξ ) = 1 / ( 1 + e − ξ ) {\displaystyle \varphi (\xi )=1/(1+e^{-\xi })} ). [ 0 , 1 ] n {\displaystyle [0,1]^{n}} 또는 R n {\displaystyle R^{n}} 의 부분집합에서 실수의 연속 함수 f {\displaystyle f} 와 ϵ > 0 {\displaystyle \epsilon >0} 가 주어지면, 다음을 만족하는 벡터 w 1 , w 2 , … , w N , α {\displaystyle \mathbf {w_{1}} ,\mathbf {w_{2}} ,\dots ,\mathbf {w_{N}} ,\mathbf {\alpha } } , θ {\displaystyle \mathbf {\theta } } 와 매개 함수 G ( ⋅ , w , α , θ ) : [ 0 , 1 ] n → R {\displaystyle G(\mathbf {\cdot } ,\mathbf {w} ,\mathbf {\alpha } ,\mathbf {\theta } ):[0,1]^{n}\rightarrow R} 이 존재한다.
이때,
이고, w j ∈ R n , α j , θ j ∈ R , w = ( w 1 , w 2 , … w N ) , α = ( α 1 , α 2 , … , α N ) , {\displaystyle \mathbf {w} _{j}\in R^{n},\alpha _{j},\theta _{j}\in R,\mathbf {w} =(\mathbf {w} _{1},\mathbf {w} _{2},\dots \mathbf {w} _{N}),\mathbf {\alpha } =(\alpha _{1},\alpha _{2},\dots ,\alpha _{N}),} θ = ( θ 1 , θ 2 , … , θ N ) {\displaystyle \mathbf {\theta } =(\theta _{1},\theta _{2},\dots ,\theta _{N})} 이다.
이 정리는 하나의 은닉층을 갖는 인공신경망은 임의의 연속인 다변수 함수를 원하는 정도의 정확도로 근사할 수 있음을 말한다. 단, w 1 , w 2 , … , w N , α {\displaystyle \mathbf {w} _{1},\mathbf {w} _{2},\dots ,\mathbf {w} _{N},\mathbf {\alpha } } 와 θ {\displaystyle \mathbf {\theta } } 를 잘못 선택하거나 은닉층의 뉴런 수가 부족할 경우 충분한 정확도로 근사하는데 실패할 수 있다.