Skip to content
DreamCube

DreamCube

基于单张图片生成带深度信息的 3D 全景及场景模型

应用特点

开源3D

截图预览

DreamCube screenshot 1
DreamCube screenshot 2
DreamCube screenshot 3

系统要求

最低16GB内存。预留足够硬盘空间,建议12GB以上。
macOS 15及以上版本:仅支持M系列芯片。
Windows10/11,仅在NVIDIA 50系显卡测试, 16GB以上显存
注意:NVIDIA显卡,请安装较新版本的驱动。

应用介绍

DreamCube能让普通用户用一张照片做出3D全景效果。

  • 用一张图生成3D全景:拍一张照片,就能自动变成可以360度观看的立体全景图,像给照片“开了上帝视角”,周围的场景都会补全。
  • 照片秒变带深度的3D图:不仅有颜色,还能算出每个物体离镜头的距离,生成带深度信息的图,让照片有立体层次感。
  • 一键生成3D场景模型:做好的全景图能直接转成3D模型,比如生成房子、街道的立体网格,或者更真实的3D高斯场景,方便做虚拟场景搭建。
  • 操作简单好上手:提供了类似美图秀秀的可视化界面(Gradio),点一点就能生成结果,不需要懂复杂代码,结果会自动保存在电脑里。

技术基础

  • 核心技术为多平面同步(Multi-plane Synchronization),通过该技术将2D扩散模型(Diffusion Models)适配到多平面全景表示(如立方图Cubemap)。
  • 基于CubeDiff、CubeGAN、PanFusion等多个开源项目的技术积累,构建了扩散模型驱动的RGB-D全景生成框架。

核心功能

  1. RGB-D全景生成:从单视图输入生成RGB-D立方图(Cubemap)和等距柱状全景图(Equirectangular Panorama)。
  2. 全景深度估计:同步生成场景的深度信息,构建带有深度的3D全景表示。
  3. 3D场景生成:支持输出3D网格(Mesh)和3D高斯场景(3DGS),实现从2D输入到3D场景的转换。

技术特点与优势

  • 单视图高效生成:仅需单张图像输入,即可生成包含色彩和深度的3D全景内容,大幅降低数据采集门槛。
  • 多平面同步技术:通过优化扩散模型在多平面上的同步推理,提升全景内容的一致性和立体感。
  • 高性能推理:在Nvidia L40S GPU上,生成完整RGB-D全景及3D场景仅需约20秒,支持实时或批量处理。
  • 开源与易用性:提供Gradio交互界面和命令行接口,模型权重自动从HuggingFace下载,便于研究者和开发者快速部署。