新闻腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频ByteDance发布Sa2VA:首个图像视频统一理解模型2025/10/17
腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频
腾讯 AI Lab 和 ARC Lab 联合开发的 StereoCrafter 模型已正式开源。这是一个创新的视频处理框架,能够将普通 2D 视频转换为高质量的立体 3D 视频,为内容创作者和开发者提供了一个强大的工具。该项目由赵思杰、胡文博、寸晓东等研究人员共同完成,展现了腾讯在视频处理和 AI 领域的技术实力。
主要特点
多格式支持:可生成红蓝 3D、VR 格式或左右分屏格式的立体视频,满足不同场景需求
广泛兼容:支持多种 3D 显示设备,包括 3D 眼镜、Apple Vision Pro 和 3D 显示器
应用场景丰富:适用于电影、Vlog、3D 动画和 AI 生成视频等多种内容类型
高质量输出:基于扩散模型,能生成长时间、高保真的立体 3D 效果
自动处理:能够自动处理不同长度和分辨率的输入视频
实时预览:支持生成效果预览,确保输出质量
技术创新
StereoCrafter 采用了基于扩散模型的创新框架,整个处理流程包含两个主要阶段:
第一阶段:深度估计和视频分层
从单目视频中估计视频深度信息
通过基于深度的视频分层技术进行处理
生成初步的变形视频和遮挡蒙版
第二阶段:立体视频修复
训练专门的立体视频修复模型
根据遮挡蒙版填充空洞区域
生成最终的高质量立体视频
这种方法不仅能保持视频的高质量,还能确保生成的 3D 效果自然流畅。研究团队还开发了复杂的数据处理流程,用于重建大规模、高质量的数据集来支持训练。
实际应用场景
StereoCrafter 的应用非常广泛:
影视制作
经典 2D 电影的 3D 转换
视频后期制作增强
直播内容的实时 3D 转换
内容创作
Vlog 和短视频 3D 效果制作
YouTube 3D 内容创作
游戏实况录像的 3D 转换
虚拟现实
VR 设备内容适配
Apple Vision Pro 视频优化
元宇宙内容创作
教育培训
3D 教学视频制作
虚拟培训材料
医疗影像可视化
技术规格
输入支持:支持各种常见视频格式
分辨率:支持高达 4K 的视频处理
处理时长:可处理任意长度的视频
输出格式:
左右分屏 3D
红蓝立体 3D
Vision Pro 专用格式
VR 设备通用格式
开源获取
StereoCrafter 现已在 Hugging Face 平台开源,开发者可以通过以下方式获取:
Hugging Face 模型页面
项目官方网站
论文
未来展望
这一开源项目的发布,将为 3D 内容创作和沉浸式体验领域带来新的可能性。随着 Apple Vision Pro 等新一代 VR/AR 设备的普及,StereoCrafter 这样的工具将在内容生态建设中发挥重要作用。项目团队表示,未来将继续优化模型性能,增加更多功能特性,并探索更多应用场景。
参考资料
StereoCrafter 官方演示视频
腾讯 AI Lab 技术博客
arXiv 论文:StereoCrafter: Diffusion-based Generation of Long and High-fidelity Stereoscopic 3D from Monocular Videos