irisuinwl’s diary

サークル不思議(略)入巣次元の、数学や技術的なことを書きます。

3層NNの普遍定理の論文を読む①

こんにちは、いりすです。 最近は3層ニューラルネットワークの普遍定理を証明したCybenko, Approximation by Superpositions of Sigmoidal Functionを読んでいます。 この論文の主定理は、sigmoidalな関数 \sigmaについてニューラルネットワークで表現される数式


\displaystyle
G(x) = \sum _ {j=1}^ N a _ j \sigma(y _ j^ Tx+\theta _ j)

の集合Sが連続関数空間 C( I _ n ) L _ 1( I _ n )で稠密であることが主張です。 特に、sigmoidalな関数 \sigmaとは


\sigma = 
\left\{ 
  \begin{array}{ll}  
  1 & (t\to \infty)  \\
  0 & (t\to -\infty)  
  \end{array}
\right.

となることです。

discriminatory関数の稠密性

定理1はsigmoidal関数よりも広い関数のクラス、discriminatoryな関数 \sigmaについてSが連続関数空間との稠密性を示してます。 discriminatoryな関数 \sigmaとは測度 \mu \in M(I _ n)に対して

 \displaystyle
\forall y\in \mathbb{R} ^ n, \forall \theta \in \mathbb{R}, \int _ {I _ n} \sigma(y^ Tx+\theta) d\mu(x) = 0 \Rightarrow \mu = 0

となることです。 証明の方針は、線形部分空間 S\subset C(I _ n)について、その閉包 \bar{S} \neq C(I _ n)として、ハーンバナッハから線形汎関数 L(\bar{S})=0となるものを作り、Riesz表現定理で

 \displaystyle
L(h)=\int _ {I _ n}h(x)d\mu(x)

と表現します。 h \sigma(y^ Tx+\thetaを突っ込むと0になるので、discriminatoryより \mu=0になり、任意の C(I _ n)に対して L=0になります。

sigmoidal関数はdiscriminatory

続いて、補題1ではsigmoidal  \subset discriminatoryを示します。

証明の方針としてはsigmoidal関数列\sigma _ \lambda(x) = \sigma (\lambda (y ^ T x  + \theta) + \phi)にたいして


\sigma _ \lambda(x) \to \left\{
  \begin{array}{lll}  
  1 & y ^ T x  + \theta > 0 \ \ as& \lambda \to \infty\\
  0 & y ^ T x  + \theta < 0 \ \ as& \lambda \to \infty\\
  \sigma(\phi) & y ^ T x  + \theta = 0 \ \ as& \lambda \to \infty
  \end{array}
\right.

ここで\gamma(x) = \lim _ {\lambda \to \infty} \sigma _ \lambda (x)としてdiscriminatoryの前提とLebesgue優収束定理より


\begin{align*}
0 &= \lim _ {\lambda \to \infty} \int _ {I _ n} \sigma _ \lambda (x) d\mu(x)\\
&= \int _ {I _ n} \gamma(x) d\mu(x)\\
&= \sigma (\phi)\mu(\Pi _ {y, \theta}) + \mu(H _ {y, \theta})
\end{align*}

となります。ただし、 \Pi _ {y, \theta} = \{x;y ^ T x = \theta \}, H _ {y, \theta} = \{ x;y ^ T x + \theta > 0 \}。ここで、 \mu(\Pi _ {y, \theta}) + \mu(H _ {y, \theta}) = 0であれば、 \mu = 0を示します。

これは線形汎関数 F(h)

 \displaystyle
F(h) = \int _ {I _ n}h(y^Tx)d\mu(x)

として、


h(u) = \left\{
  \begin{array}{ll}
  1 & \theta \leq u \\
  0 & else
  \end{array}
\right.

とすると、


F(y^Tx) = \mu(\Pi _ {y, \theta}) + \mu(H _ {y, \theta}) = 0

となります。ここで、Fの線形性より、任意の区間に対してF(h)=0となります。

どんな mについて s(u)=\sin(m ^ Tu),c(u)=\cos(m ^ Tu)について、\muフーリエ変換

 \displaystyle
F(s+ic) = \int _ {I _ n} \exp(im^Tx) d\mu(x)=0

となり、測度\mu=0となります。これで補題1は証明されました。

よって、定理1と補題1からsigmoidalな関数について G(x)で表現される関数空間が連続関数で稠密であることがわかります。