이 논문은 확산 모델(diffusion model) 기반 시각 예술 창작 분야에 대한 포괄적인 조사를 제공합니다. 인공지능 생성 콘텐츠(AIGC)의 부상과 시각 예술의 고유한 가치를 연결하며, 기술적 발전과 예술적 요구사항 간의 상호작용을 탐구하는 것을 목표로 합니다.
연구 목표 및 질문:
이 연구는 확산 모델이 시각 예술 창작을 어떻게 혁신했는지 분석하고, 이 분야의 미래 연구를 위한 프레임워크와 통찰력을 제공하는 것을 두 가지 주요 목표로 삼습니다. 이를 위해 다음과 같은 네 가지 연구 질문을 다룹니다:
Q1: 확산 모델 기반 시각 예술 창작에서 가장 주목받는 주제는 무엇인가?
Q2: 확산 모델 기반 시각 예술 창작의 현재 연구 문제/요구사항은 무엇인가?
Q3: 확산 모델 기반 시각 예술 창작에 적용되는 방법은 무엇인가?
Q4: 미래의 개척지, 트렌드, 그리고 과제는 무엇인가?
핵심 방법론 (조사 및 분석 프레임워크):
이 논문은 확산 모델 기반 시각 예술 창작 분야를 분석하기 위한 독자적인 프레임워크를 제시합니다. 이는 예술적 시나리오(Scenario), 데이터 양식(Modality), 생성 작업(Generative Task), 그리고 방법(Method)의 네 가지 핵심 요소 간의 연결을 구축하는 데 중점을 둡니다.
데이터 분류 및 구조 분석 (Q1):
- 수집된 논문들은 크게 세 가지 범주로 분류됩니다: 응용(Application), 이해(Understanding), 생성(Generation).
- 주요 연구 집중 영역은 "생성" 작업(125개 논문)이며, 특히 제어 가능하고 응용 중심적인 예술 창작에 집중되어 있습니다.
- 이러한 분류를 기반으로 예술적 요구사항과 기술적 문제 사이의 다리를 놓는 분석 프레임워크를 제안합니다.
예술적 요구사항에서 기술적 문제로의 전환 (Q2):
- 응용 도메인 및 예술적 범주: 전통 회화(예: 중국 산수화), 인물화, 서체 등 특정 예술 장르 또는 역사적 맥락에 초점을 맞춘 연구들을 검토합니다. 예를 들어, CCLAP는 Latent Diffusion Model을 사용하여 중국 산수화를 콘텐츠와 스타일을 지정하여 생성합니다.
- 시나리오의 양식화 및 작업으로의 표현:
- 데이터 양식: 연구들은 스레드/브러시 스트로크(brush stroke), 2D 픽셀/이미지, 이미지 시리즈/비디오, 3D 모델/장면 등 다양한 데이터 양식을 활용합니다. 2D 이미지가 가장 흔한 표현 방식입니다.
- 생성 작업: 일반적인 작업으로는 다음과 같습니다:
- 품질 향상(Quality Enhancement): 고해상도 및 고품질 콘텐츠 생성 (예: eDiff-I, PIXART-𝛼).
- 제어 가능한 생성(Controllable Generation): 생성 결과의 맥락, 주제, 내용, 스타일을 정밀하게 제어하는 능력 (예: ILVR, ControlNet, Textual Inversion, DreamBooth).
- 콘텐츠 편집 및 스타일화(Content Editing and Stylization): 이미지 인페인팅, 스타일 전이, 스타일 제어 등 (예: GLIDE, InstructPix2Pix, InST, DiffStyler).
- 특수 작업(Specialized Tasks): 구성 생성(compositional generation), 잠재 공간 조작(latent manipulation) 등 (예: ProSpect, VectorFusion, LayerDiffusion).
- 예술적 목표에서 평가 지표로의 연결:
- 제어 가능성: CLIP Score (텍스트 프롬프트와 생성 이미지 간의 정렬 평가), CLIP Directional Similarity (텍스트 프롬프트 변화와 이미지 변화 간의 의미론적 유사성).
- 시각적 품질: 사용자 연구, LAION-AI Aesthetics (미적 측면 평가).
- 충실도(Fidelity): Fréchet Inception Distance (FID, 생성 이미지와 실제 이미지의 특징 분포 거리), Inception Score (IS, 생성 이미지의 명료도와 다양성).
- 해석 가능성(Interpretability): Disentanglement metrics ($\beta$-VAE metric), Feature attribution (SHAP).
확산 모델 기반 방법의 설계 및 적용 (Q3):
- 생성 작업별 방법 분류: 위에서 언급된 생성 작업들에 대해 구체적인 확산 모델 기반 방법들을 설명합니다.
- Controllable Generation: ILVR (Denoising Diffusion Probabilistic Models (DDPM)을 참조 이미지로 조건화), Textual Inversion (텍스트-이미지 모델에 새로운 '단어' 학습), ControlNet (사전 학습된 모델에 공간 조건화 제어 추가), Uni-ControlNet (다중 제어 모드 통합), DreamBooth (주제를 다양한 맥락에서 렌더링).
- Content Editing: GLIDE (텍스트-조건부 이미지 생성), Prompt-to-Prompt (텍스트 프롬프트로 이미지 수정), Custom Diffusion (사용자 정의 개념 통합), InstructPix2Pix (인간 지시를 해석하여 이미지 편집), pix2pix-zero (콘텐츠 보존).
- Stylization: InST (단일 회화에서 스타일 추출), DiffStyler (콘텐츠와 스타일 균형 제어), DreamStyler (다단계 텍스트 임베딩 최적화), StyleDrop (특정 스타일에 맞게 이미지 합성).
- Quality Enhancement: eDiff-I (전문 denoising 모델 앙상블), Muse (Transformer 모델 기반), PIXART-𝛼 (효율적인 훈련), ScaleCrafter (초고해상도 이미지 생성).
- Specialized Tasks: ProSpect (텍스트 토큰 임베딩으로 이미지 표현), VectorFusion (SVG 포맷 벡터 그래픽 생성), LayerDiffusion (투명 이미지 및 이미지 레이어 생성).
- 확산 모델 구조별 방법 분류: 확산 모델의 일반적인 구조(인코더-디코더, 디노이저, 노이즈 예측기, 추가 모듈)를 기반으로 다양한 방법들을 분류합니다.
- 인코더-디코더: PHDiffusion (화가 풍의 이미지 조화), RPG framework (멀티모달 LLM의 추론 능력 활용).
- 디노이저: MultiDiffusion (다중 확산 경로 융합), Compositional Generation (확산 모델을 에너지 기반 모델로 해석).
- 노이즈 예측기: Attend-and-Excite (크로스-어텐션 유닛 정제), MasaCtrl (자기-어텐션을 상호 자기-어텐션으로 변환).
- 추가 모듈: LoRA (Transformer 아키텍처에 낮은 순위 행렬 도입), T2I-Adapters (텍스트-이미지 모델의 제어 가능성 향상).
- 생성 작업별 방법 분류: 위에서 언급된 생성 작업들에 대해 구체적인 확산 모델 기반 방법들을 설명합니다.
결론 및 향후 전망 (Q4):
이 조사는 확산 모델 기반 시각 예술 창작의 발전 과정을 상세히 기록하고, 기술적 관점과 시너지적 관점에서 미래의 개척지와 트렌드를 제시합니다.
- 기술적 관점: 3D 예술 표현 및 장면 생성(예: ARF, CoARF, Instruct-NeRF2NeRF)과 같은 고차원 및 다양한 양식(예: Human-Art dataset, SonicDiffusion)을 통해 몰입형 경험을 창출하는 방향으로 나아가고 있습니다.
- 시너지적 관점: 인간과 AI 간의 이해와 협업을 증진하여 인간의 잠재력을 발휘하고 창의성을 자극하는 데 중점을 둡니다. 이는 상호작용 시스템(예: PromptPaint, Collaborative Neural Painting, ArtVerse) 개발과 콘텐츠 수용 및 양식 정렬(예: CLIP-PAE, VQAScore)을 통해 이루어집니다. 인간의 역할은 창조자에서 최적화자, 소비자롤, AI는 분석가에서 생성자, 창조자로 변화하며, 인간-AI 협업으로의 패러다임 전환이 이루어지고 있습니다.
궁극적으로 이 논문은 확산 모델이 시각 예술 창작 분야에서 이룩한 놀라운 발전을 강조하며, AI가 단순히 인간의 예술성을 보완하는 것을 넘어 창의적 과정에 적극적으로 기여하는 미래를 제안합니다.