Diffusion model

기계 학습에서 확산 확률 모델 또는 점수 기반 생성 모델이라고도 알려진 확산 모델은 생성 모델의 한 클래스입니다. 확산 모델의 목표는 주어진 데이터 세트의 확률 분포를 생성하는 확산 프로세스를 학습하는 것입니다.

디퓨전(Diffusion) 모델이란, 기존에 존재하지 않았지만 학습 데이터와 유사한 데이터를 생성하는 인공지능 모델인 생성 모델(Generative model)의 일종입니다.

About

Diffusion model 설명 (Diffusion model이란? Diffusion model 증명) - 유니의 공부

Diffusion model은 데이터를 만들어내는 deep generative model 중 하나로, data로부터 noise를 조금씩 더해가면서 data를 완전한 noise로 만드는 forward process(diffusion process)와 반대로 noise로부터 조금씩 복원해가면서 data를 만들어내는 reverse process를 활용한다. Diffusion model은 현재 image 쪽에서는 가장 잘 작동하는 generative model 중 하나이기 때문에 기본으로 알아놓으면 아주 유용할 것 같다.

Forward Process

데이터에 점진적으로 노이즈를 추가하는 확산 과정(Forward Process)

Reverse Process

노이즈로부터 원본 데이터를 복원하는 역확산 과정(Reverse Process)

Diffusion 기반 산업용 이미지 생성 SOTA 모델 (2025)

산업용 이미지 생성의 출발점이 되는 모델들이다. 이들을 LoRA/ControlNet으로 파인튜닝하여 산업 도메인에 적용한다.

FLUX.2 (Black Forest Labs, 2025.11) - FLUX.2는 실험적 이미지 생성에서 프로덕션 등급으로의 도약을 의미하며, pro/flex/dev/open 4가지 변형을 제공한다. dev 모델은 32B 파라미터의 오픈 웨이트 모델로 소비자용 GPU에서 로컬 실행이 가능하다. 현시점 오픈소스 최강 모델이다.
Stable Diffusion 3.5 (Stability AI) - 여전히 가장 넓은 생태계(LoRA, ControlNet, IP-Adapter 등)를 보유하고 있다. 산업용 커스터마이징 파이프라인 구축에 가장 실용적인 선택이다. Medium, Large, Turbo 변형이 있으며 용도에 따라 선택 가능하다.
GLM-Image (Zhipu AI, 2025) - 최초의 오픈소스 산업 등급 이미지 생성 모델로, 자기회귀(Autoregressive) 모델링과 Diffusion 디코딩을 결합한 하이브리드 구조이다.
Z-Image (2025) - 6B 파라미터 단일 스트림 Diffusion Transformer로, 실제 데이터만으로 학습하여 SOTA 수준의 사실적 이미지 생성을 달성하면서도 계산 비용을 대폭 절감했다. 16GB 이하 GPU에서도 구동 가능하여 엣지 배포에 유리하다.

산업 결함 이미지 생성 특화 SOTA

SeaS (ICCV 2025) - Few-shot 산업 이상 이미지 생성의 최신 SOTA. 하나의 통합 모델로 여러 이상 유형의 이미지와 마스크를 동시에 생성할 수 있다. 기존 AnomalyDiffusion 대비 큰 폭의 성능 향상을 보여준다. 결함 속성을 분리(Separation)하고 공유(Sharing)하는 메커니즘을 통해, 학습 데이터에 없던 새로운 이상 유형까지 생성 가능하다.
FAST (NeurIPS 2025) - Foreground-aware Diffusion으로 가속화된 샘플링 궤적(Accelerated Sampling Trajectory)을 사용하여 세그멘테이션 지향 이상 합성을 수행한다. 결함 영역(전경)에 집중하여 더 정확한 합성을 달성하며, 배경 보존 성능이 뛰어나다.
AnomalyControl (ACM MM 2025) - 제어된 Diffusion 모델을 사용하여 높은 정렬도의 이상 이미지를 생성한다. ControlNet 기반으로 결함 위치와 유형을 정밀하게 제어할 수 있으며, Cross-modal semantic feature 학습을 통해 텍스트-이미지 간 의미적 일관성을 보장한다.
AdaBLDM (2024) - Blended Latent Diffusion Model에 온라인 적응(Online Adaptation)을 결합한 모델이다.
Training-Free Defect Generation (ICCV 2025) - Stable Diffusion V2.1과 ControlNet을 활용하여 추가 학습 없이 결함 이미지를 생성한다.

실무 추천 조합

시나리오	추천 구성	비고
빠른 프로토타이핑	SD 3.5 + ControlNet + LoRA fine-tune	가장 넓은 생태계, 풍부한 레퍼런스
최고 품질 생성	FLUX.2 dev + domain LoRA	32B 파라미터, 오픈 웨이트
Few-shot 결함 생성	SeaS (ICCV 2025)	통합 모델, 마스크 동시 생성
학습 없이 즉시 적용	Training-Free Defect Gen (ICCV 2025)	추가 학습 불필요
멀티스케일 검사	ZoomLDM (CVPR 2025)	4096×4096 고해상도 지원
텍스트 기반 결함 제어	AnomalyControl (ACM MM 2025)	ControlNet 기반 정밀 제어
생성+탐지 통합	DADNet / VLMDiff (2025)	End-to-end 파이프라인

주요 벤치마크 데이터셋

데이터셋	설명	카테고리 수
MVTec AD	산업 결함 탐지의 표준 벤치마크. 텍스처/객체 2종류, 15개 클래스	15
VisA	복잡한 구조의 산업 제품 이상 탐지	12
MVTec LOCO	논리적 제약을 포함하는 이상 탐지 (구조적 이상)	5
MHPSD	중후판 강판 표면 결함 데이터셋 (Blocky Scale, Striated Scale, Foreign Object, Inclusions)	4