3D4D: An Interactive, Editable, 4D World Model via 3D Video Generation
He, Yuan, Tu et al.
We introduce 3D4D, an interactive 4D visualization framework that integrates WebGL with Supersplat rendering. It transforms static images and text into coherent 4D scenes through four core modules and employs a foveated rendering strategy for efficient, real-time multi-modal interaction. This framework enables adaptive, user-driven exploration of complex 4D environments. The project page and code are available at https://yunhonghe1021.github.io/NOVA/.
academic
3D4D: Un Modelo de Mundo 4D Interactivo y Editable mediante Generación de Video 3D
Título: 3D4D: An Interactive, Editable, 4D World Model via 3D Video Generation
Autores: Yunhong He (Lehigh University), Zhengqing Yuan (University of Notre Dame), Zhengzhong Tu (Texas A&M University), Yanfang Ye (University of Notre Dame), Lichao Sun (Lehigh University)
Clasificación: cs.CV (Visión por Computadora)
Fecha de Publicación: 11 de noviembre de 2025 (arXiv v1)
Este artículo presenta 3D4D, un marco de visualización 4D interactivo que integra tecnologías de renderizado WebGL y Supersplat. El marco transforma imágenes estáticas y texto en escenas 4D coherentes mediante cuatro módulos centrales, empleando una estrategia de renderizado de fóvea central para lograr interacción multimodal en tiempo real eficiente. El marco permite la exploración adaptativa de entornos 4D complejos impulsada por el usuario.
Los sistemas existentes de generación y visualización de contenido 4D enfrentan tres desafíos fundamentales:
Capacidad de Renderizado Insuficiente en Tiempo Real: Los marcos WebGL tradicionales tienen dificultades para manejar renderizado 4D en tiempo real y navegación temporal de grano fino
Costo Computacional Elevado: El alto costo computacional, la latencia y los problemas de escalabilidad limitan las aplicaciones prácticas
Falta de Interactividad: Los sistemas existentes carecen de verdaderos entornos 4D interactivos, sin poder integrar sin problemas el renderizado de alto rendimiento con la interacción del usuario
Con el desarrollo de modelos generativos y aprendizaje multimodal, la generación impulsada por texto e interacción multimodal se vuelve más intuitiva, pero la falta de un marco eficiente de visualización e interacción 4D limita severamente el valor práctico del contenido 4D. Los verdaderos entornos interactivos 4D son significativos para realidad virtual, gemelos digitales, producción cinematográfica y otros campos.
Métodos como WonderJourney, LucidDreamer: Se enfocan principalmente en generación de escenas 3D, careciendo de manejo dinámico de la dimensión temporal
Métodos de generación 4D como SV4D, 4D-fy: Aunque pueden generar contenido 4D, no soportan interacción en tiempo real, con tasas de fotogramas bajas (16-40 fps)
Marcos WebGL tradicionales: No soportan interacción temporal de grano fino ni edición eficiente de escenas 4D
Desarrollar un marco de visualización 4D que satisfaga simultáneamente los requisitos de renderizado de alto rendimiento, interacción en tiempo real y necesidades de edición del usuario, permitiendo que los usuarios exploren y manipulen entornos 4D complejos de manera natural.
Propuesta del Marco 3D4D: Primer sistema de visualización 4D interactivo que integra renderizado WebGL y Supersplat, soportando generación de extremo a extremo desde imágenes estáticas y texto hasta escenas 4D
Estrategia de Renderizado de Fóvea Central: Inspirada en la visión periférica humana, mediante estrategia de renderizado adaptativo guiada por VLM, reduce el uso de memoria GPU y latencia mientras mantiene alineación semántica y consistencia visual
Capacidad de Interacción en Tiempo Real: Logra velocidad de renderizado de 60 fps, siendo el primer sistema de generación de escenas 4D que soporta verdadera interacción en tiempo real
Conjunto Completo de Herramientas de Edición: Proporciona múltiples herramientas de edición incluyendo selección rectangular, pincel, polígono, lazo y esfera, soportando operaciones precisas de objetos y regiones
Rendimiento Superior: Logra rendimiento óptimo en métricas CLIP Consistency (30.40) y CLIP Score (0.9951), superando significativamente métodos existentes
Efectividad del Renderizado Consciente de Semántica: La estrategia de renderizado de fóvea central guiada por VLM mejora significativamente el rendimiento mientras mantiene calidad visual
Importancia de Interacción en Tiempo Real: 60 fps y capacidad de interacción en tiempo real son factores clave de diferenciación en experiencia de usuario
Ventajas de Integración Multimodal: El enfoque multimodal que combina texto, imagen y renderizado 4D puede entender y generar escenas complejas mejor
Escalabilidad: El sistema se ejecuta en cliente, con buena escalabilidad y facilidad de despliegue
Viabilidad Técnica: Demuestra la viabilidad de implementar visualización 4D interactiva de alto rendimiento en entorno de navegador
Superioridad de Rendimiento: Supera completamente métodos existentes en alineación semántica, consistencia visual y velocidad de renderizado
Mejora de Experiencia de Usuario: 60 fps y capacidad de interacción en tiempo real mejoran significativamente la experiencia de exploración de contenido 4D
Eficiencia de Recursos: La estrategia de renderizado de fóvea central equilibra efectivamente calidad visual y costo computacional