Sharp Monocular View Synthesis in Less Than a Second
단일 이미지로부터 포토리얼리스틱 뷰를 합성하는 접근법
Abstract
We present SHARP, an approach to photorealistic view synthesis from a single image. Given a single photograph, SHARP regresses the parameters of a 3D Gaussian representation of the depicted scene. This is done in less than a second on a standard GPU via a single feedforward pass through a neural network. The 3D Gaussian representation produced by SHARP can then be rendered in real time, yielding high-resolution photorealistic images for nearby views. The representation is metric, with absolute scale, supporting metric camera movements. Experimental results demonstrate that SHARP delivers robust zero-shot generalization across datasets. It sets a new state of the art on multiple datasets, reducing LPIPS by 25–34% and DISTS by 21–43% versus the best prior model, while lowering the synthesis time by three orders of magnitude.
Sharp-teaser.jpg
About
- 애플이 공개한 SHARP는 단일 사진으로부터 3D 가우시안 표현을 추정해 포토리얼리스틱한 새로운 시점을 합성하는 기술
- 표준 GPU에서 1초 미만의 단일 신경망 피드포워드 패스로 처리하며, 실시간 렌더링이 가능
- 생성된 3D 표현은 절대 스케일을 가진 메트릭 표현으로, 실제 카메라 이동을 지원
- 여러 데이터셋에서 제로샷 일반화 성능을 보이며, 기존 모델 대비 LPIPS 25–34%, DISTS 21–43% 감소
- 기존 대비 합성 속도를 1000배 향상시켜, 단일 이미지 기반 3D 뷰 합성의 새로운 기준 제시
SHARP 개요
- SHARP(Sharp Monocular View Synthesis) 는 단일 이미지로부터 포토리얼리스틱한 3D 뷰 합성을 수행하는 접근법
- 입력된 한 장의 사진에서 장면의 3D 가우시안 표현 파라미터를 회귀 방식으로 추정
- 이 과정은 표준 GPU에서 1초 미만에 완료됨
- 초당 100프레임 이상의 렌더링 속도 달성
- 세밀한 구조와 선명한 디테일을 유지
기술적 특징
- SHARP의 3D 표현은 절대 스케일을 포함한 메트릭 표현으로, 실제 카메라 이동을 반영
- 단일 피드포워드 신경망 패스만으로 처리되어, 복잡한 최적화 과정 없이 빠른 결과 제공
- 제로샷 일반화를 통해 학습되지 않은 데이터셋에서도 안정적인 성능 유지
성능 및 비교 결과
- 여러 데이터셋에서 최신 성능(state of the art) 을 달성
- LPIPS 지표 25–34% , DISTS 지표 21–43% 개선
- 기존 최고 모델 대비 합성 시간 1000배 단축
시각적 결과
- SHARP는 Unsplash의 사진을 예시로, 단일 입력 이미지에서 생성된 3D 표현을 시각화
- 인접 시점에서의 렌더링 결과는 선명한 디테일과 미세 구조를 유지
- 실시간 렌더링으로 자연스러운 시점 이동 구현
Documentations
- [2512.10685] Sharp Monocular View Synthesis in Less Than a Second
- https://arxiv.org/abs/2512.10685