小记

组会PPT

做这篇论文的组会汇报的PPT及讲稿:
要求:

  1. 按照PPT页进行分点,输出每页的文本及对应的图片或者公式或者图表.主要需要讲解论文的创新点与实验.
  2. 文本严格按照下面的参照进行生成,并且在PPT每一页的地方加上该页需要展示的图片或者公式或者图表.

1 开始

这周我汇报的论文是BlockGaussian和CLM两篇论文.

2 本周论文核心内容

首先是BlockGaussian。这篇论文是针对大规模场景,也是提出了一种基于分块策略的高效3DGS框架,提高整体的重建效率与渲染质量。

3 现有方法的问题与瓶颈

文章分析现有的分块策略在大规模场景重建中面临三大挑战:

1.分块之间的复杂度不均衡:如果用均匀网格划分,会导致有的分块内非常复杂,有的分块内非常简单,导致计算负载不均衡;
2.块优化过程中的失配问题:单个训练视图中的内容可能分布在多个块中,导致渲染图像与分块不匹配
3.融合结果的质量退化:分块独立优化易产生空中浮点和伪影,影响新视角渲染质量。

4 BlockGaussian方法总览

所以针对上述问题,文章提出了下面的方法,主要是三部分.

1.基于内容的场景划分:基于稀疏点云的密度,动态分块,平衡计算负载;
2.基于可见性的块优化,会引入辅助高斯点缓解监督失配问题;
3.伪视角几何约束:通过对相机增加扰动来生成伪视角,监督空中区域;

5 创新点一:内容感知的场景划分

首先第一点就是基于内容的动态分快策略,
会基于稀疏点云的密度来递归的划分场景,复杂区域划分更细,简单区域划分更粗.
这样的话,通过控制每个块内点云数量,在并行计算时,可以确保计算的负载均衡;

6 创新点二:可见性感知的块优化

第二点就是基于可见性的块优化.
由于在单个块的优化过程中,单个块的点无法覆盖整个视图,导致与真值不匹配.
所以文章引入了辅助高斯点用来表示当前块不可见区域,使得优化后的块与训练视图更加匹配;
并且会通过小批量优化,也就是累积多个视角的梯度之后在一次性更新,提升训练稳定性;

可以看到深度正则化公式,这个也是提升重建质量的关键,论文用到了预训练的深度估计模型为每个视角生成深度图作为先验,并且计算训练过程中获得到的深度图求二者的损失.

7 创新点三:伪视角几何约束

第三点就是伪视角几何约束.
通过对相机位姿扰动生成伪视角,然后通过深度感知损失来对伪视角图像与原视角图像的匹配,从而抑制空中浮点伪影,提升块融合质量.
然后可以看到这个Lpse孙志 主要就是去优化高斯球的几何属性.

8 实验结果(Mill19与UrbanScene3D数据集)

然后就是实验结果了,
可以看到BlockGaussian在PSNR、SSIM、LPIPS指标上全面领先:
并且优化速度提升5倍,仅需数分钟完成重建(Table I-II)。

9 实验结果(MatrixCity数据集)

在街景数据集上,BlockGaussian的结果也是比较突出的

10 消融实验与关键参数分析

然后是文章做的消融实验
动态划分策略可以平衡计算负载,加速训练
辅助点+小批量优化:PSNR有一定提升
伪视角约束可以有效抑制浮点伪影

11 背景与现有方法瓶颈

然后就是第二篇文章,这篇文章主要是对3dgs训练过程数据链路的架构进行设计.
他解决的问题是3DGS训练中,显存不足的瓶颈,最终支持单GPU,比如4090训练大规模场景。

12 CLM方法总览

然后是方法的总览
文章通过CPU卸载的策略,来扩展GPU内存,仅将必要的高斯点按需加载至GPU。其核心流程分为三步:

  1. 预计算每视角所需高斯点子集(仅占全局0.39%-1.06%);
  2. 通过属性分级策略,减少存入显存的内容数量;
  3. 基于访问模式减少通信量。

首先就是属性分级策略.
作者观察发现,视锥裁剪仅需高斯点的位置、旋转、缩放,一共10个参数,而颜色、透明度等一共59维度的属性在裁剪过程是不需要的。
然后只将裁剪相关的关键属性常驻GPU内存,非关键属性存放于CPU,按需加载。
最终预期效果将减少80%的cpu与gpu的通信量。

13 创新点二:微批流水线与缓存优化

第二点的话就是将传统的批量处理变成流水线处理,缩短通信增加的时间开销.
会将训练拆分为两个cuda流,通过双缓冲的机制,复用重叠高斯点,减少冗余加载。
并且对已结束访问的高斯点提前执行CPU端优化。

第三点的话
由于微批处理的顺序影响缓存命中率与提前更新比例。
所以文章将调度问题,建模为旅行商问题(TSP),以最小化连续批次的高斯点对称差(|S_i ⊕ S_j|)为目标,贪心的搜索最优顺序。
相当于最大限度的增加连续批次的重叠高斯点数量,来减少通信量.
最终效果TSP顺序比随机顺序降低通信量最高达34%。

14 实验一:内存效率与可扩展性

然后就是实验结果了,可以看到在4090上最高支持1.02亿高斯点,比基线提升5.7倍,并且未牺牲渲染质量.

15 实验二:性能与通信优化

对比基线:CLM在4090上达到超出基线的55%-90%吞吐量,并且加载快1.38-1.92倍。
通信量:TSP顺序比随机顺序降低通信量12%-34%,BigCity场景总通信量减少82%。

16 实验三:消融与硬件利用率

然后是消融实验
消融实验:去除缓存或TSP调度后,通信量与训练时间显著增加;GPU利用率提升10%-20%。
硬件效率:CLM的PCIe与CPU利用率更高,但内存占用仅为朴素卸载的1/2。
图15:CLM与朴素卸载的GPU空闲率CDF对比。

今日学习内容

生活篇