We introduce 3D4D, an interactive 4D visualization framework that integrates WebGL with Supersplat rendering. It transforms static images and text into coherent 4D scenes through four core modules and employs a foveated rendering strategy for efficient, real-time multi-modal interaction. This framework enables adaptive, user-driven exploration of complex 4D environments. The project page and code are available at https://yunhonghe1021.github.io/NOVA/.
논문 ID : 2511.08536제목 : 3D4D: An Interactive, Editable, 4D World Model via 3D Video Generation저자 : Yunhong He (Lehigh University), Zhengqing Yuan (University of Notre Dame), Zhengzhong Tu (Texas A&M University), Yanfang Ye (University of Notre Dame), Lichao Sun (Lehigh University)분류 : cs.CV (컴퓨터 비전)발표 시간 : 2025년 11월 11일 (arXiv v1)논문 링크 : https://arxiv.org/abs/2511.08536 프로젝트 홈페이지 : https://yunhonghe1021.github.io/NOVA/ 본 논문은 WebGL과 Supersplat 렌더링 기술을 통합한 대화형 4D 시각화 프레임워크인 3D4D를 소개합니다. 이 프레임워크는 네 개의 핵심 모듈을 통해 정적 이미지와 텍스트를 일관성 있는 4D 장면으로 변환하며, 중심와 렌더링 전략을 채택하여 효율적인 실시간 다중 모달 상호작용을 구현합니다. 이 프레임워크는 사용자 주도의 복잡한 4D 환경 적응형 탐색을 지원합니다.
기존의 4D 콘텐츠 생성 및 시각화 시스템은 세 가지 핵심 과제에 직면하고 있습니다:
실시간 렌더링 능력 부족 : 기존 WebGL 프레임워크는 실시간 4D 렌더링 및 세밀한 시간 네비게이션 처리에 어려움높은 계산 비용 : 높은 계산 비용, 지연 시간 및 확장성 문제로 인한 실제 응용 제한상호작용성 부재 : 기존 시스템은 진정한 대화형 4D 환경이 부족하며, 고성능 렌더링과 사용자 상호작용을 원활하게 결합할 수 없음생성 모델 및 다중 모달 학습의 발전으로 텍스트 기반 및 다중 모달 상호작용 생성이 더욱 직관적이 되었지만, 효율적인 4D 시각화 및 상호작용 프레임워크의 부재는 4D 콘텐츠의 실제 응용 가치를 심각하게 제한합니다. 진정한 4D 상호작용 환경은 가상현실, 디지털 트윈, 영상 제작 등 다양한 분야에서 중요한 의미를 갖습니다.
WonderJourney, LucidDreamer 등의 방법 : 주로 3D 장면 생성에 초점을 맞추며 시간 차원의 동적 처리 부족SV4D, 4D-fy 등의 4D 생성 방법 : 4D 콘텐츠 생성은 가능하지만 실시간 상호작용을 지원하지 않으며 프레임률이 낮음 (16-40 fps)기존 WebGL 프레임워크 : 세밀한 시간 상호작용 및 효율적인 4D 장면 편집을 지원하지 않음고성능 렌더링, 실시간 상호작용 및 사용자 편집 요구사항을 동시에 만족할 수 있는 4D 시각화 프레임워크를 개발하여, 사용자가 자연스러운 방식으로 복잡한 4D 환경을 탐색하고 조작할 수 있도록 함.
3D4D 프레임워크 제안 : WebGL과 Supersplat 렌더링을 통합한 첫 번째 대화형 4D 시각화 시스템으로, 정적 이미지 및 텍스트에서 4D 장면으로의 엔드-투-엔드 생성 지원중심와 렌더링 전략 : 인간의 주변 시각에서 영감을 받아 VLM 가이드 적응형 렌더링 전략을 통해 의미론적 정렬 및 시각적 일관성을 유지하면서 GPU 메모리 사용 및 지연 시간 감소실시간 상호작용 능력 : 60 fps의 렌더링 속도를 구현하며, 진정한 실시간 상호작용을 지원하는 첫 번째 4D 장면 생성 시스템완전한 편집 도구 세트 : 직사각형, 브러시, 다각형, 올가미 및 구체 선택 등 다양한 편집 도구 제공으로 정확한 객체 및 영역 조작 지원우수한 성능 : CLIP Consistency (30.40) 및 CLIP Score (0.9951) 지표에서 최고 성능 달성으로 기존 방법을 크게 초과입력 :
단일 정적 전체 파노라마 이미지 또는 일반 이미지 자연 언어 텍스트 설명 (장면 동적 변화 힌트) 출력 :
대화형 4D 장면 (3D 공간 + 시간 차원) 실시간 렌더링, 편집 및 네비게이션을 지원하는 시각화 환경 제약 조건 :
시간 일관성 및 시각적 일관성 유지 실시간 상호작용 요구사항 충족 (≥60 fps) 제한된 계산 리소스에서 실행 3D4D 시스템은 백엔드 생성 파이프라인 과 프론트엔드 렌더링 시스템 두 부분으로 구성됩니다:
3D 장면 재구성 모듈 입력 정적 이미지를 3D 건축 모델로 변환 장면의 기하학적 구조 및 공간 정보 추출 이미지-비디오 합성 모듈 텍스트 프롬프트 기반 시간 일관성 있는 비디오 시퀀스 생성 생성된 비디오가 사용자 지정 동적 변화를 준수하도록 보장 비디오-프레임 분해 모듈 생성된 비디오를 연속 프레임 시퀀스로 분해 각 프레임에 대한 필요한 시각 정보 추출 4D 장면 생성 모듈 연속 프레임과 3D 건축 모델 융합 완전한 4D 장면 표현 생성 (다중 PLY 포인트 클라우드 파일) 핵심 기술 스택 :
WebGL : 기본 그래픽 렌더링 능력 제공Supersplat : 고성능 3D 가우시안 포인트 클라우드 렌더링 엔진주요 기능 :
실시간 4D 시각화 다중 PLY 포인트 클라우드 파일을 프론트엔드로 스트리밍 순차 렌더링 또는 순환 재생으로 연속 4D 비디오 형성 동적 카메라 자세, 재생 속도 및 프레임률 조정 지원 대화형 타임라인 세밀한 시간 네비게이션 제어 사용자가 시각적 품질과 효율성 간 균형 조정 가능 장면 편집 도구 직사각형 선택, 브러시, 다각형, 올가미, 구체 선택 정확한 객체 및 영역 조작 모든 상호작용이 API를 통해 백엔드와 동기화 이는 본 논문의 가장 핵심적인 기술 혁신으로, 인간 시각 시스템의 중심와 특성에서 영감을 받았습니다:
작업 흐름 :
입력 PLY 포인트 클라우드 → VLM 분석 → 중요도 맵 생성 → 적응형 리소스 할당 → 렌더링 출력
구체적 구현 :
VLM 분석 : Qwen2.5-VL 등 시각 언어 모델을 사용하여 각 프레임 분석중요도 맵 생성 : 의미론적 핵심 영역 (예: 인물, 이동 객체) 식별적응형 렌더링 :
중심와 영역 (중요 영역): 전체 정밀도 렌더링 주변 영역 (배경): 흐림, 저비용 음영 처리 리소스 최적화 : WebGL 셰이더가 GPU 리소스를 동적으로 할당장점 분석 :
인지 품질 손실 없이 GPU 부하 감소 의미론적 정렬 및 시각적 일관성 유지 실시간 성능 구현 (60 fps) 비디오 렌더링 기능 :
사용자가 PLY 장면 업로드 및 키프레임 정의 시스템이 자동으로 카메라 궤적 보간 VLM이 실시간으로 분석하고 중요도 맵 생성 프레임 버퍼 캡처, 시간 평활화, 실시간 인코딩 .webm 또는 .mp4 형식 비디오 출력 기술 특징 :
완전한 클라이언트 처리로 서버 계산 불필요 의미론적 인식 실시간 4D 비디오 생성 시각적 충실도와 계산 효율성 간 균형 표준 WebGL이 세밀한 시간 상호작용을 지원하지 않으므로, 팀은 다양한 맞춤형 기능을 개발했습니다:
시간 차원의 정확한 제어 다중 포인트 클라우드 파일의 원활한 전환 효율적인 메모리 관리 메커니즘 특성 기존 방법 3D4D 렌더링 전략 균일 렌더링 의미론적 인식 중심와 렌더링 상호작용성 오프라인 또는 제한된 상호작용 완전한 실시간 상호작용 프레임률 16-40 fps 60 fps 편집 능력 미지원 또는 제한된 지원 완전한 편집 도구 세트 리소스 효율성 높은 GPU 부하 적응형 리소스 할당
논문에서 사용된 훈련 데이터셋을 상세히 설명하지 않았지만, 평가 방법으로부터:
전체 파노라마 이미지를 입력으로 사용 자연 언어 프롬프트와 함께 장면 생성 평가는 다중 시점 일관성 검사 포함 CLIP Score (CS) 정의: 텍스트 장면 프롬프트와 렌더링된 이미지 간 CLIP 유사도 의미: 의미론적 정렬 품질 평가, 수치가 높을수록 생성 콘텐츠가 텍스트 설명을 더 잘 따름 CLIP Consistency (CC) 정의: 각 새로운 시점 이미지와 중심 참조 시점의 CLIP 임베딩 코사인 유사도 의미: 다양한 시점 간 시각적 일관성 평가, 수치가 높을수록 다중 시점 일관성이 우수함 FPS (Frames Per Second) Real-time Interaction 이진 지표: 실시간 상호작용 지원 여부 판단 기준: 사용자 작업의 즉각적 반응 능력 논문은 다음 방법들과 비교했습니다:
3D 장면 생성 방법 :
WonderJourney (Yu et al. 2024) LucidDreamer Text2Room (Höllein et al. 2023) WonderWorld 4D 콘텐츠 생성 방법 :
SV4D (Xie et al. 2024) 4D-fy (Bahmani et al. 2024) 프론트엔드는 WebGL 및 Supersplat 기반 개발 VLM은 Qwen2.5-VL 사용 포인트 클라우드 형식: PLY 비디오 인코딩: .webm 또는 .mp4 렌더링 목표: 60 fps 실시간 성능 모델 CLIP Consistency (CC) CLIP Score (CS) WonderJourney 27.34 0.9544 LucidDreamer 26.72 0.8972 Text2Room 24.50 0.9035 WonderWorld 29.47 0.9948 SV4D 30.29 0.8856 4D-fy 11.23 0.6147 3D4D (제안) 30.40 0.9951
주요 발견 :
3D4D는 CC 지표에서 30.40을 달성하여 SV4D의 30.29를 약간 초과 3D4D는 CS 지표에서 0.9951을 달성하여 모든 방법 중 최고 점수 4D-fy는 최악의 성능을 보이며, 이는 방법 설계의 한계 때문일 수 있음 3D4D는 의미론적 정렬과 시각적 일관성에서 최고의 균형 달성 모델 FPS 실시간 상호작용 SV4D 40 ✗ 4D-fy 16 ✗ 3D4D (제안) 60 ✓
주요 발견 :
3D4D는 60 fps를 구현하여 SV4D보다 50% 빠르고 4D-fy보다 275% 빠름 3D4D는 진정한 실시간 상호작용을 지원하는 유일한 방법 프레임률 우위는 더 나은 사용자 경험으로 직접 전환됨 논문은 샘플 (그림 2)을 제공하여 다음을 보여줍니다:
입력 : 단일 전체 파노라마 사진 + 자연 언어 프롬프트평가 차원 :
Controllability (제어성) Quality (품질) Dynamics (동적성) 다중 시점 일관성 : 다양한 각도에서 관찰한 장면의 일관성 유지 표시적응형 렌더링 전략의 효과를 보여줍니다:
의미론적 중요 영역은 고해상도로 렌더링 주변 영역은 색상 근사 및 배경 처리 적용 시각적으로 품질 손실을 거의 감지할 수 없지만 계산 비용 크게 감소 의미론적 인식 렌더링의 효과성 : VLM 가이드 중심와 렌더링 전략이 시각적 품질을 유지하면서 성능을 크게 향상실시간 상호작용의 중요성 : 60 fps와 실시간 상호작용 능력이 사용자 경험의 핵심 차별화 요소다중 모달 통합의 장점 : 텍스트, 이미지 및 4D 렌더링을 결합한 다중 모달 방법이 복잡한 장면을 더 잘 이해하고 생성확장성 : 시스템이 클라이언트에서 실행되어 우수한 확장성과 배포 편의성 제공텍스트-이미지 생성: Stable Diffusion (Rombach et al. 2022) 시각 지시 튜닝: LLaVA (Liu et al. 2023) 다중 모달 대규모 언어 모델: TinyGPT-V (Yuan et al. 2023) 비디오 생성: MORA (Yuan et al. 2024a), BORA (Sun et al. 2024) Text2Room (Höllein et al. 2023): 2D 텍스트-이미지 모델에서 텍스처 3D 메시 추출 WonderJourney (Yu et al. 2024): 3D 장면 탐색 LucidDreamer: 3D 장면 재구성 Text2-4D (Singer et al. 2023): 텍스트-4D 동적 장면 생성 SV4D (Xie et al. 2024): 다중 프레임 다중 시점 일관성 동적 3D 콘텐츠 4D-fy (Bahmani et al. 2024): 혼합 점수 증류 샘플링 텍스트-4D 생성 SC4D (Wu et al. 2024): 희소 제어 비디오-4D 생성 4K4D (Xu et al. 2024): 4K 해상도 실시간 4D 뷰 합성 Supersplat: 브라우저 기반 3D 가우시안 포인트 클라우드 편집 도구 첫 번째 진정한 대화형 4D 시스템 : 기존 방법은 4D를 지원하지 않거나 실시간 상호작용을 지원하지 않음엔드-투-엔드 솔루션 : 입력에서 렌더링까지의 완전한 파이프라인의미론적 인식 최적화 : VLM을 활용한 지능형 리소스 할당높은 실용성 : 웹 기술 기반으로 배포 및 사용이 용이기술 가능성 : 브라우저 환경에서 고성능 4D 대화형 시각화 구현의 가능성 증명성능 우수성 : 의미론적 정렬, 시각적 일관성 및 렌더링 속도에서 기존 방법을 전면 초과사용자 경험 향상 : 60 fps와 실시간 상호작용 능력이 4D 콘텐츠 탐색 경험을 크게 개선리소스 효율성 : 중심와 렌더링 전략이 시각적 품질과 계산 비용을 효과적으로 균형실험 세부사항 부족 :훈련 데이터셋 및 데이터 규모 미상세 설명 각 구성 요소 기여도 검증 소거 실험 부재 사용자 연구 데이터 부재 방법 설명 간략 :백엔드 네 개 모듈의 구체적 구현 세부사항 불충분 VLM이 중요도 맵을 생성하는 기술 세부사항 누락 알고리즘 의사 코드 및 수학 공식 부재 평가 범위 제한 :CLIP 관련 지표만 사용, 더 다양한 평가 부재 다양한 장면 유형의 적용성 미평가 실패 사례 분석 부재 계산 리소스 요구사항 :클라이언트 하드웨어 요구사항 명확하지 않음 다양한 장치에서의 성능 표현 미지 장면 복잡도 제한 :시스템이 처리할 수 있는 최대 장면 복잡도 미설명 극단적 상황에서의 성능 표현 미지 논문에서 명시적으로 제시하지는 않았지만, 다음 연구 방향을 추측할 수 있습니다:
더 높은 해상도 지원 : 8K 이상 해상도의 4D 렌더링으로 확장더 복잡한 상호작용 : 물리 시뮬레이션, 충돌 감지 등 고급 상호작용 지원다중 사용자 협업 : 동일 4D 장면의 다중 사용자 동시 편집 및 탐색 지원모바일 장치 최적화 : 모바일 장치의 성능 및 상호작용 방식 적응AI 보조 편집 : AI를 활용한 자동 장면 레이아웃 및 애니메이션 최적화중심와 렌더링 전략 : 인간 시각 시스템의 특성을 컴퓨터 그래픽스에 적용한 영리한 혁신VLM 가이드 리소스 할당 : 시각 언어 모델을 렌더링 최적화에 처음 적용하여 새로운 방향 개척실시간 4D 상호작용 : 기술적으로 중요한 돌파구 달성배포 용이 : 웹 기술 기반으로 복잡한 설치 불필요사용자 친화적 : 직관적 상호작용 인터페이스 및 편집 도구광범위한 응용 : 가상현실, 디지털 트윈, 영상 제작 등 다양한 분야에 적용 가능오픈소스 친화적 : 프로젝트 홈페이지 및 코드 제공SOTA 성능 : CC 및 CS 지표에서 최고 성능 달성높은 프레임률 : 60 fps는 경쟁 방법을 크게 초과실시간 상호작용 : 진정한 실시간 상호작용을 지원하는 유일한 시스템입력에서 출력까지의 완전한 파이프라인 제공 생성, 렌더링 및 편집 기능 통합 프론트엔드-백엔드 협력 설계 실험 세부사항 부족 : 훈련 데이터, 하이퍼파라미터, 구현 세부사항 불충분소거 실험 부재 : 각 구성 요소의 기여도를 단독으로 검증하지 않음사용자 연구 부재 : 실제 사용자의 경험 평가 부족백엔드 모듈 설명이 과도하게 간략함 알고리즘 의사 코드 및 수학 공식 부재 VLM 중요도 맵 생성 메커니즘이 충분히 명확하지 않음 평가 지표가 단순함 (CLIP 관련만) 다양한 장면 유형 테스트 부족 실패 사례 분석 부재 더 많은 baseline과의 비교 부족 하드웨어 요구사항이 명확하지 않음 확장성 경계 미지 극단적 상황에서의 성능 미평가 개척적 작업 : 첫 번째 진정한 실시간 대화형 4D 시각화 시스템방법 영감 : 중심와 렌더링 전략을 다른 그래픽스 작업에 적용 가능기술 융합 : WebGL, 가우시안 포인트 클라우드 및 VLM의 효과적 통합 시연즉시 사용 가능 : 온라인 데모 및 코드 제공상업적 잠재력 : 다양한 상업 시나리오에 직접 적용 가능교육 가치 : 4D 콘텐츠 제작을 위한 사용자 친화적 도구 제공장점 : 프로젝트 홈페이지 및 코드 제공부족 : 논문 세부사항 부족으로 재현에 영향 가능의존성 : Supersplat 등 특정 도구 필요가상현실 : 대화형 VR 환경 생성디지털 트윈 : 디지털 트윈 장면의 실시간 시각화 및 편집영상 제작 : 4D 장면의 빠른 미리보기 및 편집건축 시각화 : 시간에 따른 건축 변화 표시교육 훈련 : 대화형 교육 장면 생성초고정밀 요구 : 과학 시각화의 정확한 측정 등복잡한 물리 시뮬레이션 : 시스템에 물리 엔진 미통합극대규모 장면 : 성능 경계 미지저사양 장치 : 일정 GPU 성능 필요차원 평점 설명 혁신성 8/10 중심와 렌더링 및 VLM 가이드 최적화는 중요한 혁신 기술 깊이 6/10 시스템 구현은 완전하지만 논문 설명이 충분하지 않음 실험 충분성 5/10 소거 실험 및 사용자 연구 부재 실용 가치 9/10 높은 실용성으로 배포 및 사용이 용이 작문 품질 6/10 구조는 명확하지만 세부사항 부족 종합 7.5/10 우수한 시스템 작업이지만 논문 완전성 개선 필요
Rombach et al. (2022) : High-resolution image synthesis with latent diffusion models - Stable Diffusion의 기초 작업Xie et al. (2024) : SV4D: Dynamic 3d content generation with multi-frame and multi-view consistency - 주요 경쟁 방법Bahmani et al. (2024) : 4d-fy: Text-to-4d generation using hybrid score distillation sampling - 또 다른 4D 생성 baselineWang et al. (2024) : Qwen2-VL: Enhancing Vision-Language Model's Perception - 본 논문에서 사용한 VLMPlayCanvas and Contributors (2025) : SuperSplat Online Editor - 핵심 렌더링 엔진적합한 독자 :
컴퓨터 그래픽스 연구자 가상현실 개발자 4D 콘텐츠 제작자 웹 그래픽 기술 엔지니어 읽기 중점 :
중심와 렌더링 전략의 설계 사상 WebGL과 가우시안 포인트 클라우드의 통합 방법 그래픽 렌더링에서 VLM의 응용 실시간 4D 상호작용의 구현 기술 보충 읽기 필요 :
Supersplat 기술 문서 3D 가우시안 포인트 클라우드 관련 논문 WebGL 성능 최적화 모범 사례