🚀 AnyRecon:视频生成模型赋能的任意视角三维重建

论文概览

  • 标题:AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model
  • 译文:AnyRecon:基于视频生成模型的任意视角三维重建
  • 论文arXiv
  • 项目网页AnyRecon
  • 代码GitHub

一句话总结:AnyRecon 支持任意数量、无序的采集视角输入,进行任意新视角的重建,可以处理复杂的长轨迹场景,为将日常随意采集的视频数据规模化转化为可自由探索的三维场景提供了一种创新解决方案。


研究背景

稀疏视角 3D 重建是计算机视觉与图形学的核心任务,支撑着 AR/VR、沉浸式虚拟环境、数字孪生等关键应用。

现实挑战:现有主流方法(NeRF、3D 高斯泼溅)依赖密集采样、规则采集的多视图数据。而现实场景中,手持拍摄、网络视频等日常数据往往是稀疏、无序、大视角间隔的不规则输入,难以直接适配传统方法。

AnyRecon 的突破思路:利用视频扩散模型在海量视频数据中学到的时序一致性和视角平滑先验,将多视角图像序列化为”视频帧”,通过跨帧一致性约束生成几何一致的三维结构。


核心技术架构

创新亮点

1️⃣ 打破视角限制

不再局限于固定数量的参考帧!AnyRecon 支持任意数量、无序的输入,甚至可以处理复杂的长轨迹场景,大幅扩展了适用边界。

2️⃣ 显隐双重记忆架构

结合”显式 3D 几何记忆”与”隐式场景记忆”:

  • 显式记忆:3D 点云作为几何基础
  • 隐式记忆:参考帧作为持久 KV 缓存,支持长程条件建模

这种双重约束确保模型在生成新视角时,始终与拍摄视角和过往生成内容保持一致。

3️⃣ 几何贡献度检索

改变传统基于图像相似度或视野范围的检索方式,引入几何贡献度检索机制,确保生成模块”读入”的上下文信息对当前重建片段最具价值。

4️⃣ 高效推理

通过 4 步扩散蒸馏上下文窗口稀疏注意力机制,在利用视频扩散模型高保真特性的同时,大幅压缩计算复杂度。


技术 Pipeline

┌─────────────────────────────────────────┐
│          AnyRecon 工作流程               │
├─────────────────────────────────────────┤
│  输入:任意数量、无序的多视角图像         │
│           ↓                             │
│  初始几何构建 (PI3/VGGT)                │
│  ↓ 生成点云渲染图与可见性掩码            │
│           ↓                             │
│  几何驱动检索                            │
│  ↓ 筛选当前片段最有价值的参考视图         │
│           ↓                             │
│  无序上下文视频扩散                      │
│  ↓ 移除时间压缩,保留帧级像素对应关系     │
│           ↓                             │
│  全局场景记忆 (持久 KV 缓存)             │
│           ↓                             │
│  新视角生成 + 几何记忆更新               │
│  ↓ 反投影更新 3D 点云,迭代优化全局几何   │
│           ↓                             │
│  输出:几何一致的高质量三维场景           │
└─────────────────────────────────────────┘

关键技术细节

Wan2.1 视频生成模型

AnyRecon 基于 Wan2.1 视频扩散模型,该模型具备:

  • 高质量的视频帧生成能力
  • 优秀的时序一致性建模
  • 对复杂场景的深度理解

LoRA 轻量级领域适配

采用 LoRA (Low-Rank Adaptation) 技术进行微调:

  • 优势:不需要微调整个大模型,只需训练少量参数
  • 效果:将通用视频生成能力精准”重定向”到三维重建任务

全注意力机制

当前版本使用全注意力机制确保不同视角/帧之间的特征能够全局交互,有效解决传统方法中视角间信息割裂的问题。后续计划引入稀疏注意力以进一步优化显存占用。


与传统方法的对比

维度传统方法 (COLMAP+3DGS)AnyRecon
输入要求有序、重叠度高任意数量、无序
长轨迹累积误差大全局注意力避免累积
弱纹理特征匹配困难利用生成先验补全
适用场景中小规模、结构清晰大规模、复杂场景

实验结果

DL3DVTanks and Temples 基准测试中,AnyRecon 在插值和外推任务上的 PSNRSSIM 均超越 Difix3D+、ViewCrafter、Uni3C 等基线方法,LPIPS 指标显著降低,展现出优越的重建质量。


环境配置与使用

快速开始

# 1. 克隆项目
git clone https://github.com/OpenImagingLab/AnyRecon.git
cd AnyRecon
 
# 2. 创建 conda 环境
conda create -n anyrecon python=3.10 -y
conda activate anyrecon
 
# 3. 安装 PyTorch (CUDA 11.8)
pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 \
    --index-url https://download.pytorch.org/whl/cu118
 
# 4. 安装依赖
pip install -r requirements.txt
 
# 5. 运行示例
bash test.sh

直接运行

python run_AnyRecon.py \
    --root_dir example/valley \
    --output_dir example/valley \
    --lora_path full_attention.ckpt

潜在应用方向

🎬 航拍三维建模:无人机拍摄的不规则、大范围场景

🏛️ 文化遗产数字化:复杂建筑、雕塑的高精度重建

🚗 自动驾驶地图:长距离道路场景的三维建模

🎮 电影/游戏资产:快速生成高质量三维场景

🤖 机器人导航:复杂环境的三维感知


总结

AnyRecon 代表了一个令人兴奋的趋势:生成式 AI 正在从内容创作扩展到传统计算机视觉任务。通过巧妙利用视频扩散模型的强大先验知识,三维重建可以在更宽松的条件下获得更优质的结果。

如果你正在处理:

  • ✅ 大量无序拍摄的照片
  • ✅ 传统 SfM 方法失败的长轨迹场景
  • ✅ 需要高质量三维重建但缺乏专业设备

AnyRecon 值得一试!


参考资源