2025.1.19学习日记

小记

组会PPT

做这篇论文的组会汇报的PPT及讲稿:
要求:

按照PPT页进行分点,输出每页的文本及对应的图片或者公式或者图表.主要需要讲解论文的创新点与实验.
文本严格按照下面的参照进行生成,并且在PPT每一页的地方加上该页需要展示的图片或者公式或者图表.

1 开始

这周我汇报的论文是BlockGaussian和CLM两篇论文.

2 本周论文核心内容

首先是BlockGaussian。这篇论文是针对大规模场景，也是提出了一种基于分块策略的高效3DGS框架，提高整体的重建效率与渲染质量。

3 现有方法的问题与瓶颈

文章分析现有的分块策略在大规模场景重建中面临三大挑战：

1.分块之间的复杂度不均衡：如果用均匀网格划分,会导致有的分块内非常复杂,有的分块内非常简单,导致计算负载不均衡；
2.块优化过程中的失配问题：单个训练视图中的内容可能分布在多个块中，导致渲染图像与分块不匹配
3.融合结果的质量退化：分块独立优化易产生空中浮点和伪影，影响新视角渲染质量。

4 BlockGaussian方法总览

所以针对上述问题,文章提出了下面的方法,主要是三部分.

1.基于内容的场景划分:基于稀疏点云的密度,动态分块，平衡计算负载；
2.基于可见性的块优化,会引入辅助高斯点缓解监督失配问题；
3.伪视角几何约束：通过对相机增加扰动来生成伪视角，监督空中区域；

5 创新点一：内容感知的场景划分

首先第一点就是基于内容的动态分快策略,
会基于稀疏点云的密度来递归的划分场景，复杂区域划分更细，简单区域划分更粗.
这样的话,通过控制每个块内点云数量,在并行计算时,可以确保计算的负载均衡；

6 创新点二：可见性感知的块优化

第二点就是基于可见性的块优化.
由于在单个块的优化过程中,单个块的点无法覆盖整个视图,导致与真值不匹配.
所以文章引入了辅助高斯点用来表示当前块不可见区域,使得优化后的块与训练视图更加匹配；
并且会通过小批量优化,也就是累积多个视角的梯度之后在一次性更新，提升训练稳定性；

可以看到深度正则化公式,这个也是提升重建质量的关键,论文用到了预训练的深度估计模型为每个视角生成深度图作为先验,并且计算训练过程中获得到的深度图求二者的损失.

7 创新点三：伪视角几何约束

第三点就是伪视角几何约束.
通过对相机位姿扰动生成伪视角,然后通过深度感知损失来对伪视角图像与原视角图像的匹配,从而抑制空中浮点伪影,提升块融合质量.
然后可以看到这个Lpse孙志主要就是去优化高斯球的几何属性.

8 实验结果（Mill19与UrbanScene3D数据集）

然后就是实验结果了,
可以看到BlockGaussian在PSNR、SSIM、LPIPS指标上全面领先：
并且优化速度提升5倍，仅需数分钟完成重建（Table I-II）。

9 实验结果（MatrixCity数据集）

在街景数据集上，BlockGaussian的结果也是比较突出的

10 消融实验与关键参数分析

然后是文章做的消融实验
动态划分策略可以平衡计算负载，加速训练
辅助点+小批量优化：PSNR有一定提升
伪视角约束可以有效抑制浮点伪影

11 背景与现有方法瓶颈

然后就是第二篇文章,这篇文章主要是对3dgs训练过程数据链路的架构进行设计.
他解决的问题是3DGS训练中,显存不足的瓶颈，最终支持单GPU,比如4090训练大规模场景。

12 CLM方法总览

然后是方法的总览
文章通过CPU卸载的策略,来扩展GPU内存，仅将必要的高斯点按需加载至GPU。其核心流程分为三步：

预计算每视角所需高斯点子集（仅占全局0.39%-1.06%）；
通过属性分级策略,减少存入显存的内容数量；
基于访问模式减少通信量。

首先就是属性分级策略.
作者观察发现,视锥裁剪仅需高斯点的位置、旋转、缩放,一共10个参数，而颜色、透明度等一共59维度的属性在裁剪过程是不需要的。
然后只将裁剪相关的关键属性常驻GPU内存，非关键属性存放于CPU，按需加载。
最终预期效果将减少80%的cpu与gpu的通信量。

13 创新点二：微批流水线与缓存优化

第二点的话就是将传统的批量处理变成流水线处理,缩短通信增加的时间开销.
会将训练拆分为两个cuda流，通过双缓冲的机制,复用重叠高斯点，减少冗余加载。
并且对已结束访问的高斯点提前执行CPU端优化。

第三点的话
由于微批处理的顺序影响缓存命中率与提前更新比例。
所以文章将调度问题,建模为旅行商问题（TSP），以最小化连续批次的高斯点对称差（|S_i ⊕ S_j|）为目标，贪心的搜索最优顺序。
相当于最大限度的增加连续批次的重叠高斯点数量,来减少通信量.
最终效果TSP顺序比随机顺序降低通信量最高达34%。

14 实验一：内存效率与可扩展性

然后就是实验结果了,可以看到在4090上最高支持1.02亿高斯点,比基线提升5.7倍,并且未牺牲渲染质量.

15 实验二：性能与通信优化

对比基线：CLM在4090上达到超出基线的55%-90%吞吐量，并且加载快1.38-1.92倍。
通信量：TSP顺序比随机顺序降低通信量12%-34%，BigCity场景总通信量减少82%。

16 实验三：消融与硬件利用率

然后是消融实验
消融实验：去除缓存或TSP调度后，通信量与训练时间显著增加；GPU利用率提升10%-20%。
硬件效率：CLM的PCIe与CPU利用率更高，但内存占用仅为朴素卸载的1/2。
图15：CLM与朴素卸载的GPU空闲率CDF对比。

今日学习内容

生活篇

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。