2025-11-23T08:58:16.033117

3D4D: An Interactive, Editable, 4D World Model via 3D Video Generation

He, Yuan, Tu et al.

We introduce 3D4D, an interactive 4D visualization framework that integrates WebGL with Supersplat rendering. It transforms static images and text into coherent 4D scenes through four core modules and employs a foveated rendering strategy for efficient, real-time multi-modal interaction. This framework enables adaptive, user-driven exploration of complex 4D environments. The project page and code are available at https://yunhonghe1021.github.io/NOVA/.

academic

3D4D: 3D 비디오 생성을 통한 대화형, 편집 가능한 4D 월드 모델

기본 정보

논문 ID: 2511.08536
제목: 3D4D: An Interactive, Editable, 4D World Model via 3D Video Generation
저자: Yunhong He (Lehigh University), Zhengqing Yuan (University of Notre Dame), Zhengzhong Tu (Texas A&M University), Yanfang Ye (University of Notre Dame), Lichao Sun (Lehigh University)
분류: cs.CV (컴퓨터 비전)
발표 시간: 2025년 11월 11일 (arXiv v1)
논문 링크: https://arxiv.org/abs/2511.08536
프로젝트 홈페이지: https://yunhonghe1021.github.io/NOVA/

초록

본 논문은 WebGL과 Supersplat 렌더링 기술을 통합한 대화형 4D 시각화 프레임워크인 3D4D를 소개합니다. 이 프레임워크는 네 개의 핵심 모듈을 통해 정적 이미지와 텍스트를 일관성 있는 4D 장면으로 변환하며, 중심와 렌더링 전략을 채택하여 효율적인 실시간 다중 모달 상호작용을 구현합니다. 이 프레임워크는 사용자 주도의 복잡한 4D 환경 적응형 탐색을 지원합니다.

연구 배경 및 동기

해결해야 할 문제

기존의 4D 콘텐츠 생성 및 시각화 시스템은 세 가지 핵심 과제에 직면하고 있습니다:

실시간 렌더링 능력 부족: 기존 WebGL 프레임워크는 실시간 4D 렌더링 및 세밀한 시간 네비게이션 처리에 어려움
높은 계산 비용: 높은 계산 비용, 지연 시간 및 확장성 문제로 인한 실제 응용 제한
상호작용성 부재: 기존 시스템은 진정한 대화형 4D 환경이 부족하며, 고성능 렌더링과 사용자 상호작용을 원활하게 결합할 수 없음

문제의 중요성

생성 모델 및 다중 모달 학습의 발전으로 텍스트 기반 및 다중 모달 상호작용 생성이 더욱 직관적이 되었지만, 효율적인 4D 시각화 및 상호작용 프레임워크의 부재는 4D 콘텐츠의 실제 응용 가치를 심각하게 제한합니다. 진정한 4D 상호작용 환경은 가상현실, 디지털 트윈, 영상 제작 등 다양한 분야에서 중요한 의미를 갖습니다.

기존 방법의 한계

WonderJourney, LucidDreamer 등의 방법: 주로 3D 장면 생성에 초점을 맞추며 시간 차원의 동적 처리 부족
SV4D, 4D-fy 등의 4D 생성 방법: 4D 콘텐츠 생성은 가능하지만 실시간 상호작용을 지원하지 않으며 프레임률이 낮음 (16-40 fps)
기존 WebGL 프레임워크: 세밀한 시간 상호작용 및 효율적인 4D 장면 편집을 지원하지 않음

연구 동기

고성능 렌더링, 실시간 상호작용 및 사용자 편집 요구사항을 동시에 만족할 수 있는 4D 시각화 프레임워크를 개발하여, 사용자가 자연스러운 방식으로 복잡한 4D 환경을 탐색하고 조작할 수 있도록 함.

핵심 기여

3D4D 프레임워크 제안: WebGL과 Supersplat 렌더링을 통합한 첫 번째 대화형 4D 시각화 시스템으로, 정적 이미지 및 텍스트에서 4D 장면으로의 엔드-투-엔드 생성 지원
중심와 렌더링 전략: 인간의 주변 시각에서 영감을 받아 VLM 가이드 적응형 렌더링 전략을 통해 의미론적 정렬 및 시각적 일관성을 유지하면서 GPU 메모리 사용 및 지연 시간 감소
실시간 상호작용 능력: 60 fps의 렌더링 속도를 구현하며, 진정한 실시간 상호작용을 지원하는 첫 번째 4D 장면 생성 시스템
완전한 편집 도구 세트: 직사각형, 브러시, 다각형, 올가미 및 구체 선택 등 다양한 편집 도구 제공으로 정확한 객체 및 영역 조작 지원
우수한 성능: CLIP Consistency (30.40) 및 CLIP Score (0.9951) 지표에서 최고 성능 달성으로 기존 방법을 크게 초과

방법 상세 설명

작업 정의

입력:

단일 정적 전체 파노라마 이미지 또는 일반 이미지
자연 언어 텍스트 설명 (장면 동적 변화 힌트)

출력:

대화형 4D 장면 (3D 공간 + 시간 차원)
실시간 렌더링, 편집 및 네비게이션을 지원하는 시각화 환경

제약 조건:

시간 일관성 및 시각적 일관성 유지
실시간 상호작용 요구사항 충족 (≥60 fps)
제한된 계산 리소스에서 실행

시스템 아키텍처

3D4D 시스템은 백엔드 생성 파이프라인과 프론트엔드 렌더링 시스템 두 부분으로 구성됩니다:

백엔드 생성 파이프라인 (네 개의 핵심 모듈)

3D 장면 재구성 모듈
- 입력 정적 이미지를 3D 건축 모델로 변환
- 장면의 기하학적 구조 및 공간 정보 추출
이미지-비디오 합성 모듈
- 텍스트 프롬프트 기반 시간 일관성 있는 비디오 시퀀스 생성
- 생성된 비디오가 사용자 지정 동적 변화를 준수하도록 보장
비디오-프레임 분해 모듈
- 생성된 비디오를 연속 프레임 시퀀스로 분해
- 각 프레임에 대한 필요한 시각 정보 추출
4D 장면 생성 모듈
- 연속 프레임과 3D 건축 모델 융합
- 완전한 4D 장면 표현 생성 (다중 PLY 포인트 클라우드 파일)

프론트엔드 렌더링 시스템

핵심 기술 스택:

WebGL: 기본 그래픽 렌더링 능력 제공
Supersplat: 고성능 3D 가우시안 포인트 클라우드 렌더링 엔진

주요 기능:

실시간 4D 시각화
- 다중 PLY 포인트 클라우드 파일을 프론트엔드로 스트리밍
- 순차 렌더링 또는 순환 재생으로 연속 4D 비디오 형성
- 동적 카메라 자세, 재생 속도 및 프레임률 조정 지원
대화형 타임라인
- 세밀한 시간 네비게이션 제어
- 사용자가 시각적 품질과 효율성 간 균형 조정 가능
장면 편집 도구
- 직사각형 선택, 브러시, 다각형, 올가미, 구체 선택
- 정확한 객체 및 영역 조작
- 모든 상호작용이 API를 통해 백엔드와 동기화

기술 혁신 포인트

1. VLM 가이드 중심와 렌더링 전략

이는 본 논문의 가장 핵심적인 기술 혁신으로, 인간 시각 시스템의 중심와 특성에서 영감을 받았습니다:

작업 흐름:

입력 PLY 포인트 클라우드 → VLM 분석 → 중요도 맵 생성 → 적응형 리소스 할당 → 렌더링 출력

구체적 구현:

VLM 분석: Qwen2.5-VL 등 시각 언어 모델을 사용하여 각 프레임 분석
중요도 맵 생성: 의미론적 핵심 영역 (예: 인물, 이동 객체) 식별
적응형 렌더링:
- 중심와 영역 (중요 영역): 전체 정밀도 렌더링
- 주변 영역 (배경): 흐림, 저비용 음영 처리
리소스 최적화: WebGL 셰이더가 GPU 리소스를 동적으로 할당

장점 분석:

인지 품질 손실 없이 GPU 부하 감소
의미론적 정렬 및 시각적 일관성 유지
실시간 성능 구현 (60 fps)

2. 클라이언트 실시간 비디오 생성 파이프라인

비디오 렌더링 기능:

사용자가 PLY 장면 업로드 및 키프레임 정의
시스템이 자동으로 카메라 궤적 보간
VLM이 실시간으로 분석하고 중요도 맵 생성
프레임 버퍼 캡처, 시간 평활화, 실시간 인코딩
.webm 또는 .mp4 형식 비디오 출력

기술 특징:

완전한 클라이언트 처리로 서버 계산 불필요
의미론적 인식 실시간 4D 비디오 생성
시각적 충실도와 계산 효율성 간 균형

3. 맞춤형 WebGL 기능

표준 WebGL이 세밀한 시간 상호작용을 지원하지 않으므로, 팀은 다양한 맞춤형 기능을 개발했습니다:

시간 차원의 정확한 제어
다중 포인트 클라우드 파일의 원활한 전환
효율적인 메모리 관리 메커니즘

Baseline 방법과의 차이

특성	기존 방법	3D4D
렌더링 전략	균일 렌더링	의미론적 인식 중심와 렌더링
상호작용성	오프라인 또는 제한된 상호작용	완전한 실시간 상호작용
프레임률	16-40 fps	60 fps
편집 능력	미지원 또는 제한된 지원	완전한 편집 도구 세트
리소스 효율성	높은 GPU 부하	적응형 리소스 할당

실험 설정

데이터셋

논문에서 사용된 훈련 데이터셋을 상세히 설명하지 않았지만, 평가 방법으로부터:

전체 파노라마 이미지를 입력으로 사용
자연 언어 프롬프트와 함께 장면 생성
평가는 다중 시점 일관성 검사 포함

평가 지표

성능 지표

CLIP Score (CS)
- 정의: 텍스트 장면 프롬프트와 렌더링된 이미지 간 CLIP 유사도
- 의미: 의미론적 정렬 품질 평가, 수치가 높을수록 생성 콘텐츠가 텍스트 설명을 더 잘 따름
CLIP Consistency (CC)
- 정의: 각 새로운 시점 이미지와 중심 참조 시점의 CLIP 임베딩 코사인 유사도
- 의미: 다양한 시점 간 시각적 일관성 평가, 수치가 높을수록 다중 시점 일관성이 우수함

효율성 지표

FPS (Frames Per Second)
- 렌더링 속도 측정
- 실시간 상호작용의 핵심 지표
Real-time Interaction
- 이진 지표: 실시간 상호작용 지원 여부
- 판단 기준: 사용자 작업의 즉각적 반응 능력

비교 방법

논문은 다음 방법들과 비교했습니다:

3D 장면 생성 방법:

WonderJourney (Yu et al. 2024)
LucidDreamer
Text2Room (Höllein et al. 2023)
WonderWorld

4D 콘텐츠 생성 방법:

SV4D (Xie et al. 2024)
4D-fy (Bahmani et al. 2024)

구현 세부사항

프론트엔드는 WebGL 및 Supersplat 기반 개발
VLM은 Qwen2.5-VL 사용
포인트 클라우드 형식: PLY
비디오 인코딩: .webm 또는 .mp4
렌더링 목표: 60 fps 실시간 성능

모델	CLIP Consistency (CC)	CLIP Score (CS)
WonderJourney	27.34	0.9544
LucidDreamer	26.72	0.8972
Text2Room	24.50	0.9035
WonderWorld	29.47	0.9948
SV4D	30.29	0.8856
4D-fy	11.23	0.6147
3D4D (제안)	30.40	0.9951

주요 발견:

3D4D는 CC 지표에서 30.40을 달성하여 SV4D의 30.29를 약간 초과
3D4D는 CS 지표에서 0.9951을 달성하여 모든 방법 중 최고 점수
4D-fy는 최악의 성능을 보이며, 이는 방법 설계의 한계 때문일 수 있음
3D4D는 의미론적 정렬과 시각적 일관성에서 최고의 균형 달성

효율성 비교 (표 2)

모델	FPS	실시간 상호작용
SV4D	40	✗
4D-fy	16	✗
3D4D (제안)	60	✓

주요 발견:

3D4D는 60 fps를 구현하여 SV4D보다 50% 빠르고 4D-fy보다 275% 빠름
3D4D는 진정한 실시간 상호작용을 지원하는 유일한 방법
프레임률 우위는 더 나은 사용자 경험으로 직접 전환됨

시각화 결과

논문은 샘플 (그림 2)을 제공하여 다음을 보여줍니다:

입력: 단일 전체 파노라마 사진 + 자연 언어 프롬프트
평가 차원:
- Controllability (제어성)
- Quality (품질)
- Dynamics (동적성)
다중 시점 일관성: 다양한 각도에서 관찰한 장면의 일관성 유지 표시

중심와 렌더링 효과 (그림 3)

적응형 렌더링 전략의 효과를 보여줍니다:

의미론적 중요 영역은 고해상도로 렌더링
주변 영역은 색상 근사 및 배경 처리 적용
시각적으로 품질 손실을 거의 감지할 수 없지만 계산 비용 크게 감소

실험 발견

의미론적 인식 렌더링의 효과성: VLM 가이드 중심와 렌더링 전략이 시각적 품질을 유지하면서 성능을 크게 향상
실시간 상호작용의 중요성: 60 fps와 실시간 상호작용 능력이 사용자 경험의 핵심 차별화 요소
다중 모달 통합의 장점: 텍스트, 이미지 및 4D 렌더링을 결합한 다중 모달 방법이 복잡한 장면을 더 잘 이해하고 생성
확장성: 시스템이 클라이언트에서 실행되어 우수한 확장성과 배포 편의성 제공

결론 및 논의

주요 결론

기술 가능성: 브라우저 환경에서 고성능 4D 대화형 시각화 구현의 가능성 증명
성능 우수성: 의미론적 정렬, 시각적 일관성 및 렌더링 속도에서 기존 방법을 전면 초과
사용자 경험 향상: 60 fps와 실시간 상호작용 능력이 4D 콘텐츠 탐색 경험을 크게 개선
리소스 효율성: 중심와 렌더링 전략이 시각적 품질과 계산 비용을 효과적으로 균형

한계

실험 세부사항 부족:
- 훈련 데이터셋 및 데이터 규모 미상세 설명
- 각 구성 요소 기여도 검증 소거 실험 부재
- 사용자 연구 데이터 부재
방법 설명 간략:
- 백엔드 네 개 모듈의 구체적 구현 세부사항 불충분
- VLM이 중요도 맵을 생성하는 기술 세부사항 누락
- 알고리즘 의사 코드 및 수학 공식 부재
평가 범위 제한:
- CLIP 관련 지표만 사용, 더 다양한 평가 부재
- 다양한 장면 유형의 적용성 미평가
- 실패 사례 분석 부재
계산 리소스 요구사항:
- 클라이언트 하드웨어 요구사항 명확하지 않음
- 다양한 장치에서의 성능 표현 미지
장면 복잡도 제한:
- 시스템이 처리할 수 있는 최대 장면 복잡도 미설명
- 극단적 상황에서의 성능 표현 미지

향후 방향

논문에서 명시적으로 제시하지는 않았지만, 다음 연구 방향을 추측할 수 있습니다:

더 높은 해상도 지원: 8K 이상 해상도의 4D 렌더링으로 확장
더 복잡한 상호작용: 물리 시뮬레이션, 충돌 감지 등 고급 상호작용 지원
다중 사용자 협업: 동일 4D 장면의 다중 사용자 동시 편집 및 탐색 지원
모바일 장치 최적화: 모바일 장치의 성능 및 상호작용 방식 적응
AI 보조 편집: AI를 활용한 자동 장면 레이아웃 및 애니메이션 최적화

중심와 렌더링 전략: 인간 시각 시스템의 특성을 컴퓨터 그래픽스에 적용한 영리한 혁신
VLM 가이드 리소스 할당: 시각 언어 모델을 렌더링 최적화에 처음 적용하여 새로운 방향 개척
실시간 4D 상호작용: 기술적으로 중요한 돌파구 달성

2. 실용 가치 (★★★★★)

배포 용이: 웹 기술 기반으로 복잡한 설치 불필요
사용자 친화적: 직관적 상호작용 인터페이스 및 편집 도구
광범위한 응용: 가상현실, 디지털 트윈, 영상 제작 등 다양한 분야에 적용 가능
오픈소스 친화적: 프로젝트 홈페이지 및 코드 제공

3. 성능 표현 (★★★★★)

SOTA 성능: CC 및 CS 지표에서 최고 성능 달성
높은 프레임률: 60 fps는 경쟁 방법을 크게 초과
실시간 상호작용: 진정한 실시간 상호작용을 지원하는 유일한 시스템

4. 시스템 완전성 (★★★★☆)

입력에서 출력까지의 완전한 파이프라인 제공
생성, 렌더링 및 편집 기능 통합
프론트엔드-백엔드 협력 설계

부족한 점

1. 논문 완전성 (★★☆☆☆)

실험 세부사항 부족: 훈련 데이터, 하이퍼파라미터, 구현 세부사항 불충분
소거 실험 부재: 각 구성 요소의 기여도를 단독으로 검증하지 않음
사용자 연구 부재: 실제 사용자의 경험 평가 부족

2. 방법 설명 (★★★☆☆)

백엔드 모듈 설명이 과도하게 간략함
알고리즘 의사 코드 및 수학 공식 부재
VLM 중요도 맵 생성 메커니즘이 충분히 명확하지 않음

3. 평가 전면성 (★★★☆☆)

평가 지표가 단순함 (CLIP 관련만)
다양한 장면 유형 테스트 부족
실패 사례 분석 부재
더 많은 baseline과의 비교 부족

4. 기술 세부사항 (★★☆☆☆)

하드웨어 요구사항이 명확하지 않음
확장성 경계 미지
극단적 상황에서의 성능 미평가

영향력 평가

분야에 대한 기여 (★★★★☆)

개척적 작업: 첫 번째 진정한 실시간 대화형 4D 시각화 시스템
방법 영감: 중심와 렌더링 전략을 다른 그래픽스 작업에 적용 가능
기술 융합: WebGL, 가우시안 포인트 클라우드 및 VLM의 효과적 통합 시연

실용 가치 (★★★★★)

즉시 사용 가능: 온라인 데모 및 코드 제공
상업적 잠재력: 다양한 상업 시나리오에 직접 적용 가능
교육 가치: 4D 콘텐츠 제작을 위한 사용자 친화적 도구 제공

재현성 (★★★☆☆)

장점: 프로젝트 홈페이지 및 코드 제공
부족: 논문 세부사항 부족으로 재현에 영향 가능
의존성: Supersplat 등 특정 도구 필요

적용 시나리오

이상적 응용 시나리오

가상현실: 대화형 VR 환경 생성
디지털 트윈: 디지털 트윈 장면의 실시간 시각화 및 편집
영상 제작: 4D 장면의 빠른 미리보기 및 편집
건축 시각화: 시간에 따른 건축 변화 표시
교육 훈련: 대화형 교육 장면 생성

부적합 시나리오

초고정밀 요구: 과학 시각화의 정확한 측정 등
복잡한 물리 시뮬레이션: 시스템에 물리 엔진 미통합
극대규모 장면: 성능 경계 미지
저사양 장치: 일정 GPU 성능 필요

종합 평가

차원	평점	설명
혁신성	8/10	중심와 렌더링 및 VLM 가이드 최적화는 중요한 혁신
기술 깊이	6/10	시스템 구현은 완전하지만 논문 설명이 충분하지 않음
실험 충분성	5/10	소거 실험 및 사용자 연구 부재
실용 가치	9/10	높은 실용성으로 배포 및 사용이 용이
작문 품질	6/10	구조는 명확하지만 세부사항 부족
종합	7.5/10	우수한 시스템 작업이지만 논문 완전성 개선 필요

참고 문헌 (선별)

Rombach et al. (2022): High-resolution image synthesis with latent diffusion models - Stable Diffusion의 기초 작업
Xie et al. (2024): SV4D: Dynamic 3d content generation with multi-frame and multi-view consistency - 주요 경쟁 방법
Bahmani et al. (2024): 4d-fy: Text-to-4d generation using hybrid score distillation sampling - 또 다른 4D 생성 baseline
Wang et al. (2024): Qwen2-VL: Enhancing Vision-Language Model's Perception - 본 논문에서 사용한 VLM
PlayCanvas and Contributors (2025): SuperSplat Online Editor - 핵심 렌더링 엔진