Erneset Ryu ๊ต์๋์ 2022ํ๋
๋ 2ํ๊ธฐ <์ฌ์ธต์ ๊ฒฝ๋ง์ ์ํ์ ๊ธฐ์ด> ๊ณผ๋ชฉ์ ๋ฃ๊ณ ํ์๊ฐ ์์ฝํด ์ ๋ฆฌํ ๊ธ์
๋๋ค.
Introduction
Variational Autoencoder์ ๋ํด ์ค๋ช
ํ๊ธฐ ์ ์, ๊ทธ ์ ๋จ๊ณ์ธ Autoencoder์ ๋ํด ์์๋ณด๊ณ ๋์ด๊ฐ์.
Autoencoder๋ ์ด๋ฏธ์ง์ฒ๋ผ ๋์ ์ฐจ์์ ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ ์ฌ ๊ณต๊ฐ(latent space)์์ ์ ์ฐจ์์ ํํ ๋ฒกํฐ๋ก ์์ถํ๋ ์ธ์ฝ๋์, ๋ค์ ์ ์ฌ ๊ณต๊ฐ์ ๋ฒกํฐ๋ฅผ ์๋ณธ์ผ๋ก ๋ณต์ํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋ ์ ๊ฒฝ๋ง์ด๋ค. ์ธ์ฝ๋์ ์
๋ ฅ๊ณผ ๋์ฝ๋์ ์ถ๋ ฅ์ ์ฐจ์ด(์๋ฅผ ๋ค์ด MSE)๋ฅผ ์์ค ํจ์๋ก ์ค์ ํจ์ผ๋ก์จ, ์ธ์ฝ๋๋ ์๋ณธ ์ด๋ฏธ์ง์ ํน์ฑ์ ์ ์ด๋ ค์ ๋ฒกํฐ๋ก ํํํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๊ฒ ๋๊ณ , ๋์ฝ๋๋ ํํ ๋ฒกํฐ๋ง์ ๋ณด๊ณ ์๋ณธ ์ด๋ฏธ์ง์ ๊ฐ๊น๊ฒ ๋ณต์ํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๊ฒ ๋๋ค.
์ฌ๊ธฐ์ ๋์ฝ๋๊ฐ ํํ ๋ฒกํฐ๋ง์ ๋ณด๊ณ ์๋์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํด๋ธ๋ค๋ ์ ์ ์ฃผ๋ชฉํ์. ์ฆ, ํํ ๋ฒกํฐ์๋ ์๋ ์ด๋ฏธ์ง์ ์ค์ํ ์ ๋ณด๋ค์ด ๋ค ๋ด๊ฒจ์๋ค๋ ๊ฒ์ด๋ค. ์ฆ, ํํ๋ฒกํฐ๋ ์๋ณธ ์ด๋ฏธ์ง์ ๋ด๊ธด ํน์ฑ(feature)๋ค์ ๋ฝ์ ์ ์ฅํด๋์ ์ฐจ์ ์ถ์์ ์ญํ ์ ํ๋ค๊ณ ๋ ๋ณผ ์ ์์ ๊ฒ์ด๋ค. ์ค์ ๋ก VAE๋ฅผ ๋ฐ์ดํฐ์ ์ฐจ์์ ์ถ์ํ๋ ๋ฐ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค.
Variational Autoencoder๋ Autoencoder์ ํ๋ฅ ์ ์ธ ๊ฐ๋
์ ๋ํด ๊ฐ์ ํ ๊ฒ์ด๋ค. ์ด ๊ธ์์๋ VAE๊ฐ ์ ํ๋นํ ๋ชจ๋ธ์ธ์ง, ๊ทธ motivation์ ์ด๋์์ ๋์๋์ง๋ฅผ ์ํ์ ์ผ๋ก ์ค๋ช
ํ ๋ถ๋ถ๋ค์ ์ ๋ฆฌํด๋ณด๋ ค๊ณ ํ๋ค.
Key Idea of VAE
Variational Autoencoder๋ ํฌ๊ฒ latent vector $z$๊ฐ ์ฃผ์ด์ก์ ๋, ์ด๋ฏธ์ง์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ํ๋ด๋ ์ธ์ฝ๋ $p_\theta(x|z)$์, ์ด๋ฏธ์ง $x$๊ฐ ์ฃผ์ด์ก์ ๋ latent vector $z$์ ๋ถํฌ๋ฅผ ์ค๋ช
ํ๋ ๋์ฝ๋ $q_\phi(z|x)$์ ๋ ๋ถ๋ถ์ผ๋ก ๊ตฌ์ฑ๋๋ค. Autoencoder๋ฅผ ์ดํดํ๋ค๋ฉด ์ ์ ๋ ํจ์๊ฐ ๊ฐ๊ฐ ์ธ์ฝ๋์ ๋์ฝ๋๋ก ๋ถ๋ฆฌ๋์ง ์ฝ๊ฒ ์ดํดํ ์ ์๊ฒ ์ง๋ง ์ฐ์ ์ '์ธ์ฝ๋, ๋์ฝ๋'๋ผ๋ ๋ช
์นญ์ ๋ํด์๋ ๋์ด๊ฐ๊ธฐ๋ก ํ์. ์ฌ๊ธฐ์์๋ ์ ์ ๋ ํจ์๊ฐ ํ์ํ์ง๋ฅผ ์กฐ๊ธ ๋ค๋ฅธ motivation์ ์ฌ์ฉํด ์ค๋ช
ํ ๊ฒ์ด๋ค.
๋ชฉํ: Maximum Likelihood Estimation
๋จผ์ , $N$๊ฐ์ ์ด๋ฏธ์ง(์๋ฅผ ๋ค์ด์ $N$์ฅ์ ๊ณ ์์ด ์ฌ์ง) $X_1, X_2, \cdots, X_N$๊ฐ ์ฃผ์ด์ ธ ์๋ค๊ณ ์๊ฐํ์. ์ฐ๋ฆฌ์ ๋ชฉํ๋ ์ด๋ฌํ ๊ณ ์ฐจ์์ ์ด๋ฏธ์ง๋ค์ ๊ธฐ์ ์ ์๋, underlying structure๋ฅผ ์ดํดํ๋ ๊ฒ์ด๋ค. ๋ค๋ฅด๊ฒ ๋งํ์๋ฉด, $N$์ฅ์ ๊ณ ์์ด ์ฌ์ง๋ค์ "๊ณ ์์ด ์ฌ์ง์ ํ๋ฅ ๋ถํฌ"์์ $N$๋ฒ ์ํ๋ง๋ ๊ฒ์ด๋ผ๊ณ ๊ฐ์ ํ ์ ์์ผ๋ฉฐ, ๊ทธ ํ๋ฅ ๋ฐ๋ํจ์ $p_X(x)$๋ฅผ ์์๋ด๋ ๊ฒ์ ๋ชฉํ๋ก ์ผ์ ์ ์์ ๊ฒ์ด๋ค.
์ด๋ ๋ ๊ทธ๋ ๋ฏ์ด ์ต์ฐ๋์ถ์ (maximum likelihood estimation, MLE)์ ํตํด์ ํ ์ ์๋ค. IID๋ก $p_X(x)$์์ ์ํ๋ง์ ํ์ ๋, ์ $N$๊ฐ์ ์ด๋ฏธ์ง๊ฐ ๋ชจ๋ ๋์ฌ ํ๋ฅ (์ ํํ๋ likelihood)์
$$p_X(X_1)p_X(X_2)\cdots p_X(X_n)$$
๊ฐ ๋๋ฏ๋ก ์ด๋ฅผ ์ต๋ํํ๋ฉด ๋๋ ๊ฒ์ด๋ค. ๊ณฑ์ผ๋ก ์ด๋ฃจ์ด์ง ์์ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก ๋ก๊ทธ๋ฅผ ์์ฐ๋ฉด ์ฐ๋ฆฌ์ ๋ชฉํ๋
$$ \text{maximize}_{p} \sum_{i=1}^N\log p(X_i)$$
๊ฐ ๋๋ค. $p$๋ผ๋ ํจ์๊ฐ $\theta$๋ก ๋งค๊ฐํ๋๋ ํจ์๋ผ๊ณ ํ๋ฉด, ๋ค์
$$ \text{maximize}_{\theta \in \Theta} \sum_{i=1}^N\log p_\theta(X_i)$$
๋ก ์ธ ์ ์์ ๊ฒ์ด๋ค. ์ด๋ $p_\theta$๋ ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌํ๋๋ฉฐ, $\theta$๋ ๊ทธ ๊ฐ์ค์น๊ฐ ๋ ๊ฒ์ด๋ค.
๊ทธ๋ฐ๋ฐ autoencoder์์ ์ค๋ช
ํ๋ฏ์ด ์ด๋ฏธ์ง $X$์๋ ๊ทธ ๊ธฐ์ ์ $Z$๋ผ๋, ์ด๋ฏธ์ง์ ํน์ฑ์ ์ค๋ช
ํ๋ ๋ณ์๊ฐ ์์ด $Z$๋ง ์๋ฉด $X$๊ฐ ๊ฑฐ์ ๊ฒฐ์ ๋๋ค๊ณ ํ ์ ์๋ค. ๋ฐ๋ผ์ ์ ํ๋ฅ ๊ณต์๊ณผ ์กฐ๊ฑด๋ถํ๋ฅ ์ ์ฌ์ฉํด์
$$ p_\theta(X) = \int p_\theta(X|z)p_Z(z) dz = \mathbb{E}_{Z \sim p_Z}[p_\theta(X|Z)]$$
๋ก ์ธ ์ ์๋ค. ๊ทธ๋ฌ๋ฉด ๋ค์ ์ฐ๋ฆฌ์ ๋ชฉํ๋
$$ \text{maximize}_{\theta \in \Theta} \sum_{i=1}^N \log \mathbb{E}_{Z \sim p_Z}[p_\theta(X_i|Z)]$$
๋ก ๋ฐ๋๊ฒ ๋๋ค. $p_Z$๋ ์ฌ๊ธฐ์ ์๋ ค์ ธ์๋ ํจ์๋ก, ์ผ๋ฐ์ ์ผ๋ก (๋ค๋ณ์) ํ์ค์ ๊ท๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ค.
Importance Sampling
์ด์ ์์ ์์ ์ด๋ป๊ฒ ์ต๋ํํ ์ง๋ฅผ ์๊ฐํด๋ด์ผ ํ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ๋ฌธ์ ์ ์ ์์ ๊ธฐ๋๊ฐ์ด ๋ผ์ด์๋ค๋ ๊ฒ์ด๋ค. $Z$๊ฐ ์ด์ฐํ๋ฅ ๋ณ์๋ผ๋ฉด ๊ทธ๋ฅ
$\mathbb{E}_{Z \sim p_Z}[p_\theta(X|Z)]=\sum_i p_Z(z_i)p_\theta(X|z_i)$
์ฒ๋ผ ๋ค ๋ํด๋ฒ๋ฆฌ๋ฉด ๋๋ค. ํ์ง๋ง $Z$๋ ์ฐ์์ ์ธ ๋ถํฌ๋ฅผ ๊ฐ์ง๊ธฐ ๋๋ฌธ์ $\int p_\theta(X|z)p_Z(z) dz$๋ฅผ ๊ณ์ฐํด์ผ ํ๋ฉฐ, ์ด๋ ๊ต์ฅํ ์ด๋ ต๋ค. ์ด ๋๋ฌธ์ $Z_i$๋ฅผ ์ํ๋งํด์ $\mathbb{E}$์ ๊ทผ์ฌ๊ฐ์ ๊ตฌํด ์ฌ์ฉํ๊ฒ ๋๋ค.
$$\sum_{i=1}^N \log \mathbb{E}_{Z \sim p_Z} [p_\theta(X_i|Z)] \approx \sum_{i=1}^N \log p_\theta(X_i|Z_i)\quad\quad Z_i \sim p_Z$$
์ฌ์ค ์์ ์์ ๊ฐ ์ด๋ฏธ์ง $X_i$์ ๋ํด์, ๊ทธ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ธ(๋ง๋ค์ด๋์ ๊ฒ์ด๋ผ๊ณ ์๊ฐ๋๋) latent vector $Z$๋ฅผ ํ๊ฐ์ฉ๋ง ์ํ๋งํ์ฌ ๊ตฌํ๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ๋ถ์ ํํ ๊ทผ์ฌ์ด๋ค. ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ Importance Sampling์ด๋ผ๋ ๊ฐ๋
์ ๋์
ํด์ ์ด๋ฅผ ํด๊ฒฐํ๋ค.
Importance Sampling์ ๊ฐ๋
$X$๊ฐ $f(x)$๋ผ๋ ํ๋ฅ ๋ฐ๋ํจ์๋ฅผ ๊ฐ์ง ๋ $\mathbb{E}_{X\sim f}[\phi(X)]$๋ฅผ ๊ตฌํด์ผ ํ๋ ์ํฉ์ ์๊ฐํด๋ณด์. ๊ทธ๋ฐ๋ฐ ์ ๋ถ์ ์ค์ ๋ก ํด์ ์ด๋ฅผ ๊ตฌํ๋ ๊ฒ์ด ์ด๋ ค์ด ์ํฉ์ด ๋ง๊ธฐ ๋๋ฌธ์ ์์ ๊ฐ์ด ๋ง์ ๊ฒฝ์ฐ $X$๋ฅผ ์ ๋นํ ์ํ๋งํด์
$$\mathbb{E}_{X\sim f}[\phi(X)]\approx \frac{1}{N}\sum_{i=1}^k \phi(X_i)$$
๊ณผ ๊ฐ์ด ๊ทผ์ฌํด์ ์ฌ์ฉํ๋ค. ์ด๋ฅผ Monte Carlo Estimation์ด๋ผ๊ณ ํ๋ค. ํฐ ์์ ๋ฒ์น์ ์ํด, $N$์ด ์ปค์ง๋ฉด ์ปค์ง์๋ก ์ฐ๋ณ์ ์ค์ ๊ธฐ๋๊ฐ๊ณผ ๋งค์ฐ ์ ์ฌํ ๊ฐ์ ๊ฐ์ง๊ฒ ๋ ๊ฒ์ด๋ค.
ํ์ง๋ง ์์ ๊ฐ์ ๊ทผ์ฌ๋ ๋๋๋ก ๋ถ์ฐ์ด ๋๋ฌด ์ปค์ ์ค์ ๋ก๋ ์ฌ์ฉํ๊ธฐ ํ๋ค๊ฑฐ๋, $N$์ด ์์ฃผ ์ปค์ผ ์ ํํด์ง ๋๊ฐ ๋ง๋ค. ๋ฐ๋ผ์ Importance Sampling์ด๋ผ๋ ๊ฐ๋
์ ์ฌ์ฉํด์ ๋ถ์ฐ์ ์ค์ด๊ฒ ๋๋ค. Importance Sampling์ ํต์ฌ์ X์ ๋ถํฌ ํจ์ $f$๋ฅผ ๋ค๋ฅธ "์ข์" ํจ์ $g$๋ก ๋ฐ๊พธ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํด ์๋์ ๊ฐ์ ํ
ํฌ๋์ ์ฌ์ฉํ๋ค.
$$\mathbb{E}_{X\sim f}[\phi(X)] = \int \phi(x) f(x) dx = \int \frac{\phi(x)f(x)}{g(x)} g(x) dx$$
์ด๋ ๊ธฐ๋๊ฐ์ ์ฌ์ฉํด ์๋์ ๊ฐ์ด ์ธ ์ ์๋ค.
$$ \mathbb{E}_{X\sim f}[\phi(X)] = \mathbb{E}_{X \sim g}\left[\frac{\phi(X)f(X)}{g(X)} \right]$$
์์ ๋งํ๋ฏ์ด, $X$๊ฐ ๋ฐ๋ฅด๋ ๋ถํฌ(ํ๋ฅ ๋ฐ๋ํจ์)๊ฐ $f$์์ $g$๋ก ๋ฐ๋ ๊ฒ์ ๋ณผ ์ ์์ ๊ฒ์ด๋ค. $g$๋ฅผ ์ ์ ํ๊ฒ ์ ํํ๋ฉด ์๋๋ณด๋ค ๋ ์ ํํ(variance๊ฐ ๋ฎ์) ์ถ์ ์ ํ ์ ์๊ฒ ๋๋ค.
๊ทธ๋ฌ๋ฉด $g$๋ ์ด๋ป๊ฒ ์ ํํด์ผ ํ ๊น? ์ด์์ ์ผ๋ก๋
$$ g(X) = \frac{\phi(X)f(X)}{I} \quad(I = \int \phi(x) f(x) dx) $$
๋ก ๋์ผ๋ฉด ๋ถ์ฐ์ด 0์ผ๋ก ์ต์๊ฐ ๋๋ค. ๊ทธ๋ฐ๋ฐ $I$๋ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ๊ฐ์ด ์๋๋ฏ๋ก($I = \mathbb{E}_{X\sim f}[\phi(X)]$์ด๋ฏ๋ก $I$๋ฅผ ์๊ณ ์๋ค๋ฉด ์ ์ด์ ์ด ์ง์ ํ ํ์๊ฐ ์๋ค) ์ด๋ฌํ ํจ์๋ ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ ์ ์๋ค.
๋ฐ๋ผ์ $g$๊ฐ ์ด์์ ์ธ ํจ์ $\frac{\phi(X)f(X)}{I}$์ ๊ฐ๋ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํด์, ์ด๊ฒ์ด ์ต์ํ๋๋๋ก ํจ์ผ๋ก์จ ์ด๋ ์ ๋ ์ข์ $g$๋ฅผ ๊ตฌํ ์ ์๋ค. $g$๋ $\theta$๋ก parametrize๋ ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค๊ณ ๊ฐ์ ํ์. KL-Divergence๋ฅผ ์ฌ์ฉํ๋ฉด,
$$ D_{KL} (g_\theta||\phi f/I) = \mathbb{E}_{x\sim g_\theta}\left[{\log\left(\frac{Ig_\theta (X)}{\phi(X)f(X)}\right)}\right]$$
$$ = \mathbb{E}_{x\sim g_\theta}\left[{\log\left(\frac{g_\theta (X)}{\phi(X)f(X)}\right)}\right] + \log I $$
์ด๋ฉฐ, $\log I$๋ $\theta$์ ๋ํด์๋ ์์์ด๋ฏ๋ก $\mathbb{E}_{x\sim g_\theta}\left[{\log\left(\frac{g_\theta (X)}{\phi(X)f(X)}\right)}\right]$๋ฅผ SGD๋ฅผ ์ฌ์ฉํด์ ์ต์ํํ๋ฉด ๋๋ค. ์ด๋ ๊ฒ ๊ตฌํ $g_\theta$๋ฅผ ์ฌ์ฉํ์ฌ Importance Sampling์ ํ๋ฉด $I$๋ฅผ ๋น๊ต์ ๋ฎ์ variance๋ก ์ถ์ ํ ์ ์๋ค.
Z๋ฅผ importance samplingํ์
์ด์ ์๋์ ๋ฌธ์ ๋ก ๋์์์, ์ด๋ฏธ์ง $X_i$์ ๋ํด
$$p_\theta(X_i) =\mathbb{E}_{Z \sim p_Z} [p_\theta(X_i|Z)] $$
๋ฅผ $Z_i\sim q_i(z)$๋ฅผ ์ฌ์ฉํ importance sampling์ ํตํด ๊ทผ์ฌํด ๋ณด์.
$$\mathbb{E}_{Z \sim p_Z} [p_\theta(X_i|Z)] \approx p_\theta(X_i|Z_i)\frac{p_Z(Z_i)}{q_i(Z_i)}\quad \quad Z_i \sim q_i(z)$$
์ด๋ $q_i$๋ ์์ ์ค๋ช
ํ ๊ฒ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก
$$q_i^*(z) = \frac{p_\theta(X_i|z)p_Z(z)}{p_\theta(X_i)} = p_\theta(z|X_i)$$
์ผ ๋ ์ต๋๊ฐ ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฐ๋ฐ ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ์ํด์, ์ด๋ $p_\theta(z|X_i)$์ ๊ฐ๋ค. ๋ฌผ๋ก ์ด๋ ์ ํํ๊ฒ ๊ณ์ฐ์ด ๋ถ๊ฐ๋ฅํ๋ฉฐ($p_\theta(X_i)$๋ฅผ ๋ชจ๋ฅด๋), KL-Divergence ๋ฅผ ํตํด $q_i^*$์ ์ต๋ํ ๋น์ทํ $q_i$๋ฅผ ์ฐพ์์ผ ํ๋ค.
$$D_{KL}(q_i(\cdot) || q_i^*(\cdot)) = D_{KL}(q_i(\cdot) || p_\theta(\cdot|X_i)) = \mathbb{E}_{Z\sim q_i}\log\left(\frac{q_i(Z)}{p_\theta(Z|X_i)} \right)$$
$$=\mathbb{E}_{Z\sim q_i}\log\left(\frac{q_i(Z)}{p_\theta(X_i|Z)p_Z(Z)/p_\theta(X_i)} \right)$$
$$=\mathbb{E}_{Z\sim q_i} \left[\log(q_i(Z)) - \log(p_\theta(X_i|Z))-\log p_Z(Z) \right]+ \log p_\theta(X_i)$$
๋ง์ง๋ง ์ค์์, $\log p_\theta(X_i)$๋ $Z$์ ๋ฌด๊ดํ ํญ์ด๋ฏ๋ก ์ต์ํํ ๋ ๋ฌด์ํด์ค๋ ๋๋ค. ๊ทธ๋ฌ๋ฉด $q_i(Z)$, $p_\theta(X_i|Z)$, $p_Z(Z)$๋ ๋ชจ๋ ์ฐ๋ฆฌ๊ฐ ๊ณ์ฐํ ์ ์๋ ํญ๋ค์ด๋ฏ๋ก $q_i$๋ฅผ ์ ์กฐ์ ํจ์ผ๋ก์จ ์ต์ํ๊ฐ ๊ฐ๋ฅํ๋ค.
Amortized Inference
๊ทธ๋ฐ๋ฐ ์์์ $q_i$๋ฅผ ๋ณด๋ฉด index $i$๊ฐ ๋ถ์ด์๋ ๊ฒ์ ์ ์ ์๋ค. ์ฆ, ๊ฐ ๋ฐ์ดํฐ(์ด๋ฏธ์ง) $X_i$์ ๋ํด์ ๊ฐ๋ณ์ ์ผ๋ก ์ต์ ํ ๋ฌธ์ ๋ฅผ ํ๊ณ ์๋ ๊ฒ์ด๋ค. ๋น์ฐํ ์ด๋ ๊ณ์ฐ์ด ๋งค์ฐ ๋ง์ด ๊ฑธ๋ฆด ๊ฒ์ด๋ค.
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ํจ์ $q$๋ฅผ ์ ๊ฒฝ๋ง์ผ๋ก ๊ตฌ์ฑํ๊ณ , ๊ทธ ๊ฐ์ค์น $\phi$๋ก parametrizeํ์ฌ $q_\phi$๋ก ๋ง๋ ๋ค. ๊ทธ๋ฆฌ๊ณ
$$\sum_{i=1}^ND_{KL}(q_\phi(\cdot|X_i) || q_i^*(\cdot))$$
๋ฅผ loss ํจ์๋ก ์ผ์์ SGD๋ฅผ ์ฌ์ฉํด ์ต์ํํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด, $q_\phi$๋ ๋ฃ์ด์ฃผ๋ ์ด๋ฏธ์ง $X_i$์ ๋ฐ๋ผ์ ๋ค๋ฅธ ๋ถํฌ $q_i(z)$๋ฅผ ๋ํ๋ด๊ฒ ๋๋ค. ์ฆ ํ๋์ ํจ์ $q_\phi(z|X)$๋ง์ผ๋ก $N$๊ฐ์ ๊ณ์ฐ๊ณผ์ ์ ๋์ ํ ์ ์๋ ๊ฒ์ด๋ค. ์ฆ,
$$q_\phi(z|X_i) = q_i(z) \approx q_i^*(z) = p_\theta(z|X_i)\quad \text{for all } i = 1, \cdots, N$$
๊ฐ ๋๋ ๊ฒ์ด๋ค. ์ด $q_\phi$๊ฐ ๋ฐ๋ก ์ธ์ฝ๋๊ฐ ๋๋ค.
Encoder์ Decoder์ ์ต์ ํ
์ด์ ์ธ์ฝ๋ $q_\phi$์ $p_\theta$๋ฅผ ์ต์ ํํ๋ฉด ๋๋ค. ๋จผ์ ์ธ์ฝ๋์ ๋ชฉํ๋ ์์์ ์ค๋ช
ํ ๊ฒ์ฒ๋ผ ๊ฐ ์ด๋ฏธ์ง $X_i$์ ๋ํด importance sampling์ ํ๋ ์ต์ ์ ํจ์ $q_i^*$๋ฅผ amortized inference๋ก ๊ทผ์ฌํ๋ ๊ฒ์ด ๋๋ค.
$$\text{minimize}_{\phi\in\Phi}\sum_{i=1}^ND_{KL}(q_\phi(\cdot|X_i) || q_i^*(\cdot))$$
$$= \text{maximize}_{\phi\in\Phi} \sum_{i=1}^N \mathbb{E}_{Z\sim q_\phi(z|X_i)}\log\left(\frac{q_i(Z)}{p_\theta(Z|X_i)} \right) $$
$$= \text{maximize}_{\phi\in\Phi}\mathbb{E}_{Z\sim q_\phi(z|X_i)} \left[\log\left(\frac{p_\theta(X_i|Z)p_Z(Z)}{q_\phi(Z|X_i)}\right) \right]$$
$$= \text{maximize}_{\phi\in\Phi}\sum_{i=1}^N \mathbb{E}_{Z\sim q_\phi(z|X_i)}\left[ \log p_\theta(X_i|Z)-D_{KL} (q_\phi(\cdot|X_i)||p_Z(\cdot)) \right]$$
๋์ฝ๋์ ๋ชฉํ๋ (๋น์ฐํ) Maximum Likelihood Estimation์ ์ํํ๋ ๊ฒ์ด๋ค.
$$ \text{maximize}_{\theta\in\Theta}\sum_{i=1}^N \log p_\theta(X_i) $$
$$ = \text{maximize}_{\theta\in\Theta} \log\mathbb{E}_{Z\sim p_Z}\left[p_\theta(X_i|Z)\right]$$
$$\approx\text{maximize}_{\theta \in\Theta} \sum_{i=1}^N \log\left(\frac{p_\theta(X_i|Z)p_Z(Z)}{q_\phi(Z|X_i)} \right)\quad (Z\sim q_{\phi}(z|X_i))$$
$$\approx\text{maximize}_{\theta \in\Theta} \sum_{i=1}^N \mathbb{E}_{Z_\sim q_{\phi}(z|X_i)}\left[\log\left(\frac{p_\theta(X_i|Z)p_Z(Z)}{q_\phi(Z|X_i)} \right)\right]$$
$$= \text{maximize}_{\theta \in\Theta} \sum_{i=1}^N \mathbb{E}_{Z_\sim q_{\phi}(z|X_i)} \left[\log p_\theta(X_i|Z)\right] - D_{KL}(q_\phi (\cdot|X_i)||p_Z(\cdot)) $$
์ฐ์ฐํ๋ ๋ ์์ ํํ๊ฐ ๋๊ฐ์ ๊ฒ์ ์ ์ ์๋ค! ๋ฐ๋ผ์ ์ ์์ ์ต๋ํํ๋ $\theta$์ $\phi$๋ฅผ ์ฐพ์ผ๋ฉด ๋๋ค. ์ฆ,
$$ \text{maximize}_{\theta \in\Theta, \phi \in \Phi} \sum_{i=1}^N \mathbb{E}_{Z_\sim q_{\phi}(z|X_i)} \left[\log p_\theta(X_i|Z)\right] - D_{KL}(q_\phi (\cdot|X_i)||p_Z(\cdot)) $$
๋ฅผ ์ฐพ๋ ๊ฒ์ด VAE์ training objective๊ฐ ๋๋ค.