- ๐ก ์ด ์ฐ๊ตฌ๋ Stable Diffusion ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฐฝ์์ฑ ๋ถ์กฑ์ ํด๊ฒฐํ๊ธฐ ์ํด, ์ถ๊ฐ ํ์ต ์์ด denoising ๊ณผ์ ์์ ํน์ง ๋งต์ ์ ํ์ ์ผ๋ก ์ฆํญํ๋ C3(Creative Concept Catalyst) ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ๐ ๏ธ C3๋ U-Net์ ์์ ๋ธ๋ก์์ ์ ์ฃผํ ํน์ง์ ์ ํ์ ์ผ๋ก ์ฆํญํ์ฌ ์ฐฝ์์ฑ์ ๋์ด๋ฉฐ, ์ฌ์ฉ์ฑ(usability)๊ณผ ์ฐธ์ ์ฑ(novelty)์ ์ ์งํ๊ธฐ ์ํด ์ฆํญ ๊ณ์๋ฅผ ์๋์ผ๋ก ์กฐ์ ํฉ๋๋ค.
- ๐ ์ ๋์ ๋ฐ ์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ํตํด C3๋ ๋ค์ํ Stable Diffusion ๋ชจ๋ธ์์ ์ด๋ฏธ์ง์ ์ฐฝ์์ฑ, ์ฐธ์ ์ฑ, ๋ค์์ฑ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ, ์ถ๊ฐ ๋น์ฉ ์์ด ์ฐฝ์์ AI ์์ฑ์ ๊ธฐ์ฌํจ์ ์ ์ฆํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ Stable Diffusion ๊ธฐ๋ฐ ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ์ฐฝ์์ฑ ํ๊ณ๋ฅผ ๋ค๋ฃจ๋ฉฐ, ํ๋กฌํํธ์ 'creative'๋ผ๋ ๋จ์ด๋ฅผ ํฌํจํด๋ ์ํ๋ ์์ค์ ์ฐฝ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ฅผ ์ง์ ํฉ๋๋ค. ๊ธฐ์กด์ ์ฐฝ์์ฑ ์ฆ์ง ๋ฐฉ๋ฒ๋ค์ ์ถ๊ฐ์ ์ธ ์ต์ ํ ๋จ๊ณ๋ ๋ ํผ๋ฐ์ค ์ด๋ฏธ์ง๋ฅผ ์๊ตฌํ์ฌ ๊ณ์ฐ ๋น์ฉ์ด ๋์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด, ๋ณธ ๋ ผ๋ฌธ์ C3(Creative Concept Catalyst)๋ผ๋ ํ๋ จ-๋ฌด๋ฃ(training-free) ์ ๊ทผ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. C3๋ ๋๋ ธ์ด์ง ๊ณผ์ ์์ ํน์ ํผ์ฒ๋ฅผ ์ ํ์ ์ผ๋ก ์ฆํญํ์ฌ ๋ ์ฐฝ์์ ์ธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ก ์ ๋ํ๋ฉฐ, ์ถ๊ฐ์ ์ธ ๊ณ์ฐ ๋น์ฉ ์์ด ๋ค์ํ Stable Diffusion ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
2. ํต์ฌ ๋ฐฉ๋ฒ๋ก : C3 (Creative Concept Catalyst)
C3์ ํต์ฌ์ ์ฌ์ ํ์ต๋ ํ์ฐ ๋ชจ๋ธ์ U-Net ์ํคํ ์ฒ ๋ด์์ ํผ์ฒ ๋งต(feature maps)์ ์ ํ์ ์ผ๋ก ์กฐ์ํ๋ ๊ฒ์ ๋๋ค.
2.1. ๋๊ธฐ (Motivation)
Stable Diffusion ๋ชจ๋ธ์ U-Net ๋ฐฑ๋ณธ์ ํตํด ์ ์ฌ ๋ ธ์ด์ฆ๋ฅผ ์์ฑํ๋ฉฐ, ์ด๋ ์ธ ๊ฐ์ ๋ค์ด ๋ธ๋ก(down blocks), ํ๋์ ๋ฏธ๋ค ๋ธ๋ก(middle block), ๊ทธ๋ฆฌ๊ณ ์ธ ๊ฐ์ ์ ๋ธ๋ก(up blocks)์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํ๋กฌํํธ์ 'creative'๋ฅผ ์ถ๊ฐํด๋ ์ฐฝ์์ฑ ํฅ์์ด ๋ฏธ๋ฏธํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์, ๋ณธ ์ฐ๊ตฌ๋ ํผ์ฒ ๋งต ์กฐ์์ ์ฃผ๋ชฉํฉ๋๋ค. ๊ฒฝํ์ ๋ถ์์ ํตํด, ๊ฐ ๋ธ๋ก์ด ์ฐฝ์์ฑ์ ๋ค๋ฅด๊ฒ ๊ธฐ์ฌํจ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
- ์์ ๋ธ๋ก(shallow blocks) (Down 0, Down 1): ์ฃผ๋ก ์์ ๋ฐ ๊ตฌ์กฐ ๋ณํ๋ฅผ ์ ๋ํ๋ฉฐ, ์๊ฐ์ ์ผ๋ก ์๋ก์ด ์์๋ฅผ ์์ฑํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
- ์ค๊ฐ ๋ธ๋ก(Down 2, Middle): ํ ์ค์ฒ์ ํํ ๊ด๋ จ ์์ฑ์ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
- ๊น์ ๋ธ๋ก(deep blocks) (Up blocks): ์ฃผ๋ก ๋
ธ์ด์ฆ, ๋ธ๋ฌ, ๋๋น ๋ฑ ์ด๋ฏธ์ง ํ์ง ์์ฑ์ ์ํฅ์ ์ค๋๋ค.
์ด๋ฌํ ํต์ฐฐ์ ๋ฐํ์ผ๋ก, C3๋ ์ผ๊ด๋ ์ฐฝ์์ ์ด๋ฏธ์ง ์์ฑ์ ์ํด ๋ค์ด ๋ธ๋ก๊ณผ ๋ฏธ๋ค ๋ธ๋ก์ ํผ์ฒ ์กฐ์์ ์ด์ ์ ๋ง์ถฅ๋๋ค.
2.2. C3 ์๊ณ ๋ฆฌ์ฆ
C3๋ U-Net์ ์ธ ๊ฐ์ ๋ค์ด ๋ธ๋ก๊ณผ ํ๋์ ๋ฏธ๋ค ๋ธ๋ก์์ ๋ด๋ถ ํผ์ฒ ๋งต์ ์ฆํญํจ์ผ๋ก์จ ์๋ํฉ๋๋ค. ๋ชจ๋ ํผ์ฒ ๊ฐ์ ์ผ๋ฅ ์ ์ผ๋ก ์ฆํญํ๋ฉด ์ด๋ฏธ์ง๊ฐ ๋ ์ฐฝ์์ ์ผ๋ก ๋ ๊ฐ๋ฅ์ฑ์ด ์์ง๋ง, ์ข ์ข ๋ ธ์ด์ฆ๋ ๋ชจ์์ดํฌ ํจํด๊ณผ ๊ฐ์ ์์น ์๋ ๋ถ์์ฉ์ด ๋ฐ์ํฉ๋๋ค. ์ด๋ ์ฃผ๋ก ๊ณ ์ฃผํ(high-frequency) ๋ํ ์ผ์ ์ฆํญ ๋๋ฌธ์ด๋ผ๊ณ ๊ฐ์ ํฉ๋๋ค. ์ด๋ฏธ์ง ์ฒ๋ฆฌ์์ ์ ์ฃผํ(low-frequency) ๊ตฌ์ฑ ์์๋ ์ด๋ฏธ์ง์ ์ฃผ์ ์ฝํ ์ธ ๋ ๊ฐ์ฒด์ ๊ด๋ จ๋๊ณ , ๊ณ ์ฃผํ ๊ตฌ์ฑ ์์๋ ๋ฏธ์ธํ ๋ํ ์ผ์ ํฌ์ฐฉํฉ๋๋ค. ์ด ํต์ฐฐ์ ๋ฐํ์ผ๋ก, C3๋ ์ฃผํ์ ์์ญ์์ ์ ์ฃผํ ๊ตฌ์ฑ ์์๋ฅผ ์ ํ์ ์ผ๋ก ์ฆํญํฉ๋๋ค.
๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ํผ์ฒ ๋งต ๋ณํ: $l$-๋ฒ์งธ ๋ธ๋ก์ ์ถ๋ ฅ ํผ์ฒ ๋งต์ $x_l$์ด๋ผ ํ ๋, ์ด๋ฅผ ํจ๋ฆฌ์ ๋ณํ(FFT)ํ์ฌ ์ฃผํ์ ์์ญ์ ํผ์ฒ ๋งต $f(x_l) = \text{FFT}(x_l)$์ ์ป์ต๋๋ค.
- ์ ์ฃผํ ๋ฐ ๊ณ ์ฃผํ ๋ถ๋ฆฌ: ์ง์ ๋ ์ ๋จ ์๊ณ๊ฐ(cut-off threshold)์ ๊ฐ์ง ์ด์ง ์ ์ฃผํ ๋ง์คํฌ(binarized low-frequency mask) $M_L$์ ์ ์ฉํ์ฌ ์ ์ฃผํ ๋ฐ ๊ณ ์ฃผํ ๊ตฌ์ฑ ์์๋ฅผ ๋ถ๋ฆฌํฉ๋๋ค.
- ์ ์ฃผํ ๊ตฌ์ฑ ์์: $f_L(x_l) = f(x_l) \odot M_L$ (์ฌ๊ธฐ์ $\odot$๋ ์์๋ณ ๊ณฑ์ ์ ์๋ฏธํฉ๋๋ค).
- ๊ณ ์ฃผํ ๊ตฌ์ฑ ์์: $f_H(x_l) = f(x_l) \odot (1 - M_L)$
์ ๋จ ์๊ณ๊ฐ์ ์ ์ฃผํ ๊ตฌ์ฑ ์์์ ๋ฒ์๋ฅผ ์ ์ํ๋ฉฐ, ์๊ณ๊ฐ์ด ๋์์๋ก ๋ ๋์ ์ ์ฃผํ ๋ฒ์๊ฐ ํฌํจ๋์ด ์ด๋ฏธ์ง์ ๋ ๊ด๋ฒ์ํ ์์ ์ด ๊ฐ๋ฅํฉ๋๋ค.
- ์ ์ฃผํ ์ฆํญ: ์ ์ฃผํ ๊ตฌ์ฑ ์์ $f_L(x_l)$์ ์ฆํญ ๊ณ์ $\omega^{\rightarrow}_l$๋ก ์ฆํญํ๊ณ , ๊ณ ์ฃผํ ๊ตฌ์ฑ ์์๋ ๋ณด์กดํฉ๋๋ค.
- ๋ณํ๋ ์ฃผํ์ ํผ์ฒ: $f^{\rightarrow}(x_l) = \omega^{\rightarrow}_l \cdot f_L(x_l) + f_H(x_l)$
- ์ญ๋ณํ ๋ฐ ๋ค์ ๋ธ๋ก ์ ๋ ฅ: ๋ณํ๋ ์ฃผํ์ ํผ์ฒ $f^{\rightarrow}(x_l)$๋ฅผ ์ญ ํจ๋ฆฌ์ ๋ณํ(IFFT)ํ์ฌ ๊ณต๊ฐ ์์ญ์ ํผ์ฒ $x^{\rightarrow}_l = \text{IFFT}(f^{\rightarrow}(x_l))$์ ์ป์ต๋๋ค. ์ด $x^{\rightarrow}_l$์ U-Net์ $(l+1)$-๋ฒ์งธ ๋ธ๋ก์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
์ด ๊ธฐ์ ์ ๋ ธ์ด์ฆ๋ฅผ ๋์ ํ์ง ์์ผ๋ฉด์ ๋ ์ฐฝ์์ ์ผ๋ก ํฅ์๋ ๊ฐ์ฒด๋ฅผ ๋ช ํํ๊ฒ ์์ฑํฉ๋๋ค.
2.3. ๋งค๊ฐ๋ณ์ ์ ํ (Parameter Selection)
์ ์ ํ ์ฆํญ ๊ณ์ $\omega_l$๋ฅผ ์ฐพ๋ ๊ฒ์ ์ค์ํฉ๋๋ค. ๋๋ฌด ์์ผ๋ฉด ์ด๋ฏธ์ง๊ฐ ๋ณํ์ง ์๊ณ , ๋๋ฌด ํฌ๋ฉด ์์๋ณผ ์ ์๋ ๋ ธ์ด์ฆ๋ก ๋ฐ์ฐํฉ๋๋ค. ๋ํ, $\omega_l$ ๊ฐ์ ๊ฐ ๋ธ๋ก๋ง๋ค ๋ฌ๋ผ์ง๋ฉฐ, ํ๋ฐ ๋ธ๋ก์ ๋ณํ์ ๋ ๋ฏผ๊ฐํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ฐฝ์์ฑ์ ํต์ฌ ๋ ๊ฐ์ง ์ธก๋ฉด(์ ์ฉ์ฑ(usability)๊ณผ ์ฐธ์ ์ฑ(novelty))์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ ๋ธ๋ก์ ๋ํ ์ ์ ํ ์ฆํญ ๊ณ์๋ฅผ ์๋์ผ๋ก ์ฐพ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
- ์ ์ฉ์ฑ (Usability): ์ฐฝ์์ ์ธ ์ํ์ ์ฐธ์ ํ ๋ฟ๋ง ์๋๋ผ ํน์ ํ์ง ๊ธฐ์ค์ ์ถฉ์กฑํด์ผ ํฉ๋๋ค. ์ด๋ฏธ์ง ๋๋ฉ์ธ์์ ์ ์ฉ์ฑ์ ์ฝํ
์ธ ๊ฐ ๋์ ๊ฐ์ฒด๋ก ์ธ์๋ ์ ์๋์ง ์ฌ๋ถ์ ์ด๋ฏธ์ง ํ์ง์ด ๋ง์กฑ์ค๋ฌ์ด์ง ์ฌ๋ถ๋ฅผ ๊ณ ๋ คํฉ๋๋ค.
- ์ ์ฉ์ฑ ์ ์: $\text{Use}(I) = \text{Aesthetic}(I) + \text{CLIP}(I, c)$
- $\text{Aesthetic}(I)$: ์์ฑ๋ ์ด๋ฏธ์ง $I$์ ๋ฏธํ ์ ์. ๋ฏธํ์ ์๊ฐ ๋ถ์(AVA) ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก ํ๋ จ๋ ๊ณต๊ฐ ์์ธก๊ธฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
- $\text{CLIP}(I, c)$: ์์ฑ๋ ์ด๋ฏธ์ง $I$์ ํ ์คํธ ํ๋กฌํํธ $c$ (์: "a creative [obj]") ์ฌ์ด์ CLIP ์ ์. ์ด๋ฏธ์ง์ ํ ์คํธ์ ์ ๋ ฌ(alignment) ์ ๋๋ฅผ ํ๊ฐํฉ๋๋ค.
- ์ ์ฉ์ฑ ์ ์: $\text{Use}(I) = \text{Aesthetic}(I) + \text{CLIP}(I, c)$
- ์ฐธ์ ์ฑ (Novelty): ์ฐธ์ ์ฑ์ ์ฆํญ ๊ณ์ $\omega_l$์ ๋จ์กฐ์ ์ผ๋ก ์ฆ๊ฐํ๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. ๋ฐ๋ผ์ ์ ์ฉ์ฑ ์ ์ฝ ์กฐ๊ฑด ํ์์ ์ฐธ์ ์ฑ์ ์ต๋ํํ๋ $\omega_l$์ ํ์ํฉ๋๋ค.
- ์ต์ ํ ๋ฌธ์ : $\omega^{\rightarrow}_l = \text{max } \omega^i_l \text{ for } \omega^i_l \in \Omega_l, \text{ s.t., Use}(I(\omega^i_l)) \ge \epsilon \cdot \text{Use}(I(\omega^0_l))$.
- $I(\omega)$: ์ฆํญ ๊ณ์ $\omega$๋ก ์์ฑ๋ ์ด๋ฏธ์ง.
- $\Omega_l = {\omega^i_l | 1 = \omega^0_l < \omega^1_l < ... < \omega^n_l = K_l}$: ์ฆํญ ๊ณ์ ํ๋ณด๊ตฐ. $\omega^0_l$์ ์ฆํญ ์์, $K_l$์ ์ต๋ ์ฆํญ ๊ณ์.
- $\epsilon$: ์ ์ฉ์ฑ ๋ฒํผ(usability bumper)๋ก, $0 \le \epsilon \le 1$ ๊ฐ์ ๊ฐ์ง๋ฉฐ ์ ์ฉ์ฑ๊ณผ ์ฐธ์ ์ฑ ๊ฐ์ ๊ท ํ์ ์กฐ์ ํฉ๋๋ค. $\epsilon$์ด ํด์๋ก ๋ ๋์ ์ถฉ์ค๋(fidelity)๋ฅผ ์ ์งํ์ง๋ง ์ฐธ์ ์ฑ์ ํฌ์๋ ์ ์์ต๋๋ค.
- $K_l$ ๊ฐ์ ๋ธ๋ก๋ณ๋ก ๋ค๋ฅด๊ฒ ์ค์ ํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ ๋๋ค (์: $K_0=K_1=2$, $K_2=K_3=10$).
- ์ต์ ํ ๋ฌธ์ : $\omega^{\rightarrow}_l = \text{max } \omega^i_l \text{ for } \omega^i_l \in \Omega_l, \text{ s.t., Use}(I(\omega^i_l)) \ge \epsilon \cdot \text{Use}(I(\omega^0_l))$.
์ฌ๋ฌ ๋ธ๋ก์ ๋์์ ์ฆํญํ ๋๋ ์ด๋ฏธ์ง ํ์ง ์ ์ง๋ฅผ ์ํด ์ฆํญ ๊ณ์์ ์ถ๊ฐ์ ์ธ ์ค์ผ์ผ๋ง์ด ํ์ํฉ๋๋ค. ๊ฒฝํ์ ์ผ๋ก, Turbo ๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ค์ผ์ผ๋ง ๊ณ์์ ํฉ์ 1๋ก, ๋ค๋ฅธ ๋ชจ๋ธ์ ๊ฒฝ์ฐ 0.6์ผ๋ก ์ ์งํ๋ฉด ๋ง์กฑ์ค๋ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ์ป์ต๋๋ค.
3. ์คํ ๊ฒฐ๊ณผ
C3์ ํจ๊ณผ๋ SDXL, Lightning (1-step ๋ฐ 4-step), Turbo์ ๊ฐ์ ๋ค์ํ Stable Diffusion ๊ธฐ๋ฐ ๋ชจ๋ธ ๋ฐ ๋ค์ํ ๊ฐ์ฒด(์์, ๊ฑด๋ฌผ, ์๋ฅ, ์๋์ฐจ, ํ ๋๋ฒ ์ด)์ ๋ํด ํ๊ฐ๋์์ต๋๋ค. ConceptLab[19]๊ณผ๋ ๋น๊ต๋์์ต๋๋ค.
3.1. ์ ๋์ ๊ฒฐ๊ณผ
- ์ฐธ์ ์ฑ (Novelty): FID(Frechet Inception Distance)์ Precision ์งํ๋ฅผ ํตํด ํ๊ฐ๋์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ผ๋ฐ์ ์ธ ์์ฑ๋ฌผ๊ณผ ์ฐจ๋ณํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ชฉํ๋ก ํ๋ฏ๋ก, FID๋ ๋์์๋ก, Precision์ ๋ฎ์์๋ก ์ฐฝ์์ฑ์ด ๋๋ค๊ณ ํด์ํฉ๋๋ค. C3๋ ์๋ณธ ๋ชจ๋ธ ๋๋น FID์ Precision ๋ชจ๋ ๊ฐ์ ๋์์ต๋๋ค. ConceptLab์ FID๋ C3๋ณด๋ค ๋์ง๋ง, ๋ ํผ๋ฐ์ค ๊ฐ์ฒด์ FID๋ฅผ ์ด๊ณผํ์ฌ ๋ค๋ฅธ ๊ฐ์ฒด๋ก ์ธ์๋ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- ๋ค์์ฑ (Diversity): Recall, LPIPS(Learned Perceptual Image Patch Similarity), Vendi Score๋ฅผ ํตํด ์ธก์ ๋์์ต๋๋ค. C3๋ ์ ๋ฐ์ ์ผ๋ก ๋ค์์ฑ ์งํ์์ ๊ฐ์ ์ ๋ณด์์ต๋๋ค. ํนํ Turbo ๋ฐ Lightning ๋ชจ๋ธ์ ๋ชจ๋ ๋ถ๊ดด(mode collapse) ๋ฌธ์ ๊ฐ ์์์์๋ Recall ์ ์๊ฐ ํฌ๊ฒ ํฅ์๋์์ต๋๋ค.
- ์ ์ฉ์ฑ (Usability): ์์ฑ๋ ์ด๋ฏธ์ง์ ํ๋กฌํํธ ๊ฐ์ CLIP ์ ์ ๋ฐ BLIP VQA ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ํ๊ฐ๋์์ต๋๋ค. C3๋ ์ฐธ์ ์ฑ๊ณผ ๋ค์์ฑ ํฅ์์ ๋นํด ์ ์ฉ์ฑ ์งํ์ ์์ค์ ๋ฏธ๋ฏธํ ์์ค์ด๋ฉฐ, ConceptLab์ ๋นํด์๋ ์ ์ฉ์ฑ ์์ค์ด ํจ์ฌ ์ ์ต๋๋ค.
3.2. ์ ์ฑ์ ๊ฒฐ๊ณผ
C3๋ 'a creative obj'์ ๊ฐ์ ํ๋กฌํํธ๋ก๋ ์ฐฝ์์ ์ธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ด๋ ค์ ๋ ์๋ณธ ๋ชจ๋ธ๋ค์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ์ต๋๋ค. C3๋ฅผ ์ ์ฉํ ์ด๋ฏธ์ง๋ ์๋ณธ ๊ฐ์ฒด์ ํต์ฌ ์๋ฏธ๋ฅผ ์ ์งํ๋ฉด์๋ ๋ ํ๋ถํ๊ณ ๋ ์ฐฝ์ ์ธ ์์๋ฅผ ์ถ๊ฐํ์ต๋๋ค. ConceptLab์ ๋ ํนํ ๋ณํ์ ์์ฑํ์ง๋ง, ์ข ์ข ์๋ณธ ๊ฐ์ฒด์ ์๋ฏธ๋ก ์ ๋ฌด๊ฒฐ์ฑ์ ํฌ์ํ๋ ๊ฒฝํฅ์ด ์์ต๋๋ค.
3.3. ์ฌ์ฉ์ ์ฐ๊ตฌ
์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ํตํด C3์ ์ฐฝ์์ฑ์ ์ธ๊ฐ ์ง๊ฐ ์ธก๋ฉด์์ ํ๊ฐํ์ต๋๋ค. ์ ์ฉ์ฑ๊ณผ ์ฐธ์ ์ฑ ๋ ๊ฐ์ง ์ง๋ฌธ์ ๋ํด 5์ ๋ฆฌ์ปคํธ ์ฒ๋๋ก ์๋ตํ์ต๋๋ค. C3๋ ์๋ณธ ๋ชจ๋ธ ๋๋น ์ฐธ์ ์ฑ ์ ์๊ฐ ํฌ๊ฒ ํฅ์๋์์ผ๋ฉฐ, ConceptLab๋ณด๋ค๋ ๋์ ์ฐธ์ ์ฑ ์ ์๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ ์ฉ์ฑ ์ ์๋ ์ํญ ๊ฐ์ํ์ผ๋, ์ฐธ์ ์ฑ ์ฆ๊ฐํญ์ ๋นํด ์์ผ๋ฉฐ, ConceptLab๋ณด๋ค๋ ์ ์ฉ์ฑ ์ ์๊ฐ ํจ์ฌ ๋์์ต๋๋ค.
4. ๋ ผ์ (Discussions)
- 'Creative' ํ๋กฌํํธ์ ์ญํ : C3๋ ํ๋กฌํํธ์ ๋ช ์์ ์ผ๋ก 'creative'๊ฐ ํฌํจ๋ ๋ ์ฐฝ์์ฑ์ ์ฆํญํฉ๋๋ค. ์ด๋ 'creative'๊ฐ ๋ผํ ํธ(latent)๋ฅผ ํ์ฅํ์ฌ ๊ด๋ จ ํฌ๋ก์ค-์ดํ ์ (cross-attention) ๊ฐ์ ์ฆํญ์ํค๊ธฐ ๋๋ฌธ์ ๋๋ค. 'creative'๋ฅผ ์ ๊ฑฐํ๋ฉด ์ผ๋ฐ์ ์ธ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋๋ฉฐ, FID ์ ์๋ ๊ฐ์ํ์ฌ C3๊ฐ ์๋ํ์ง ์์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ์ง ์์์ ๋ณด์ฌ์ค๋๋ค.
- ์ฐฝ์์ฑ์ ์ ํ: ๋ค์ค ๋ชจ๋ฌ LLM(GPT-4o)์ ์ฌ์ฉํ์ฌ C3๊ฐ ๊ฐํํ๋ ์ฐฝ์์ฑ์ ์ธก๋ฉด์ ๋ถ์ํ์ต๋๋ค. C3๋ก ์์ฑ๋ ์ด๋ฏธ์ง๋ ์ ๋ฐ์ ์ธ ์ฐฝ์์ฑ์ด ์ฆ๊ฐํ์ผ๋ฉฐ, ๊ฐ์ฒด ์ ํ์ ๋ฐ๋ผ ๊ฐ์กฐ๋๋ ์ฐฝ์์ฑ์ ์ธก๋ฉด์ด ๋ฌ๋์ต๋๋ค (์: ์์๋ ํํ, ์๋ฅ๋ ํ ์ค์ฒ, ํ ๋๋ฒ ์ด๋ ์์).
- ํ์ฉ ์ฌ๋ก:
- ControlNet ํตํฉ: ControlNet๊ณผ ๊ฒฐํฉํ์ฌ ์ ๋ ฅ ์ ์ฝ์ ๋ฐ๋ฅด๋ฉด์๋ ์ฐฝ์์ ์ธ ์ํ์ ์ฝ๊ฒ ์์ฑํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
- SDXL ํ์ดํผํ๋ผ๋ฏธํฐ์์ ํตํฉ: CFG(Classifier-Free Guidance) ์ค์ผ์ผ์ด๋ ๋ค๊ฑฐํฐ๋ธ ํ๋กฌํํธ์ ๊ฐ์ SDXL์ ๊ธฐ๋ณธ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ์ฐฝ์์ฑ ํฅ์์ ์ ํ์ ์ธ ๋ฐ๋ฉด, C3๋ ๊ธฐ๋ณธ ์ค์ ์์๋ ์ฐฝ์์ฑ์ ํฅ์์ํต๋๋ค. ๋ํ, C3๋ CFG ๋ฐ ๋ค๊ฑฐํฐ๋ธ ํ๋กฌํํธ์ ํจ๊ป ์ฌ์ฉ๋ ๋ ๋ชจ๋ ์ค์ ์์ ๋ ์ฐฝ์์ ์ธ ์ํ์ ์์ฑํ ์ ์์ต๋๋ค.
- ๋์ฒด ํ๋กฌํํธ ํ์ฅ: 'creative' ์ธ์ 'rare', 'innovative', 'ingenious'์ ๊ฐ์ ๋์ฒด ํ์ฉ์ฌ๋ฅผ ์ฌ์ฉํด๋ C3๋ ์ผ๊ด๋๊ฒ ์ฐฝ์์ฑ์ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๋น-Stable Diffusion ๋ชจ๋ธ๋ก์ ํ์ฅ: C3๋ฅผ Kandinsky 3.0 ๋ฐ HunYuan-DiT์ ๊ฐ์ ๋ค๋ฅธ ์ํคํ ์ฒ(U-Net ๊ธฐ๋ฐ ๋ฐ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ)์๋ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํ์ธํ์ต๋๋ค.
5. ๊ฒฐ๋ก ๋ฐ ํ๊ณ
๋ณธ ๋ ผ๋ฌธ์ ์ฌ์ ํ๋ จ๋ Stable Diffusion ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฐฝ์์ ๊ฒฐ๊ณผ๋ฌผ์ ํฅ์์ํค๊ธฐ ์ํ ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ธ ํ๋ จ-๋ฌด๋ฃ ๋ฐฉ๋ฒ์ธ C3๋ฅผ ์ ์ํฉ๋๋ค. C3๋ ์๋ ์ ํ๋ ์ฆํญ ๊ณ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ด๋ถ ํผ์ฒ๋ฅผ ์ฆํญํ๊ณ , ๊ด๋ฒ์ํ ๋ฏธ์ธ ์กฐ์ ์ด๋ ์ถ๊ฐ ์ต์ ํ ์์ด๋ ํ์ง์ ์ ์งํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ณธ ๋ฐฉ๋ฒ์๋ ํ๊ณ๋ ์กด์ฌํฉ๋๋ค. C3๋ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ์์ฑ ๋ฅ๋ ฅ์ ํฌ๊ฒ ์์กดํ๋ฉฐ, ๋ชจ๋ธ ์์ฒด๊ฐ ๋์ ๊ฐ์ฒด์ ๋ํ ์ฐฝ์์ฑ ๊ฐ๋ ์ด ์ ํ์ ์ผ ๊ฒฝ์ฐ ์ฐฝ์์ ์ธ ์ํ์ ์์ฑํ์ง ๋ชปํ ์ ์์ต๋๋ค. ๋ํ, C3์ ํจ๊ณผ๋ฅผ ๋ค๋ฅธ ๋ชจ๋ธ ์ํคํ ์ฒ ๋ฐ ๊ตฌ์ฑ ์์์ ๊ฑธ์ณ ์ข ํฉ์ ์ผ๋ก ๋ถ์ํ๋ ๊ฒ์ ํฅํ ์ฐ๊ตฌ ๊ณผ์ ๋ก ๋จ๊ฒจ์ ธ ์์ต๋๋ค. ์ด๋ฌํ ํ๊ณ์๋ ๋ถ๊ตฌํ๊ณ , C3๋ ์ฐฝ์์ ์์ฑ์ ์ํ ์ต์ด์ ํ๋ จ-๋ฌด๋ฃ ๋ฐฉ๋ฒ์ผ๋ก์, ์ฐฝ์์ ์ธ AI ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๊ณ ์ ํ ๋์์ด๋์ ๊ฐ์ ์ฌ์ฉ์์๊ฒ ํฅ์๋ ๊ฒฐ๊ณผ๋ฌผ์ ์ ๊ณตํจ์ผ๋ก์จ ์๊ฐ์ ์ค ์ ์์ต๋๋ค.