当你在手机上尝试打开一个沉浸式3D场景时,是否遇到过画面卡顿、设备发热甚至无法加载的情况?悉尼科技大学、百度公司与阿德莱德大学联合研发的Flux-GS技术,正试图打破这一困境。这项名为《Monte Carlo Energy Aggregation for Mobile 3D Gaussian Splatting》的研究,通过预印本平台arXiv公开了完整论文,其核心目标只有一个:让高质量3D场景渲染在移动设备上实现流畅运行。
传统3D高斯泼洒技术(3DGS)通过数百万个携带颜色信息的椭球形"气泡"构建场景,在台式电脑上可实现每秒数十帧的细腻渲染。但当这项技术迁移至手机时,两个关键瓶颈暴露无遗:一是三阶球谐函数导致的数据膨胀问题,每个气泡需存储48个浮点数,仅颜色数据就占据模型总存储量的81%;二是训练过程中气泡数量失控增长,导致渲染速度骤降、存储需求激增。研究团队在实验中发现,原版3DGS生成的场景模型存储量可达478MB,而手机设备显然无法承载如此庞大的数据。
针对颜色信息存储难题,研究团队创新性地提出蒙特卡洛光谱能量聚合器(MC-SEA)。该方案通过球面均匀采样技术,在虚拟球面上随机布置2048个观察点,计算每个气泡在这些方向上的颜色残差值。通过提取残差的平均强度与方向信息,将原本需要48个浮点数存储的三阶球谐函数,压缩为仅需两个统计量的"颜色摘要"。配合专门训练的小型神经网络,这些摘要数据可被精准转换为一阶球谐函数系数,在保证高光效果的同时,将颜色存储需求降低至原有方案的1/20。
为弥补压缩过程中的细节损失,属性条件化球谐增强模块应运而生。这个四层轻量级神经网络通过分析气泡的空间位置、大小、朝向等固有属性,预测其颜色系数的修正量。关键创新在于所有修正值在推理阶段前完成计算并"烘焙"至模型参数中,使得实际渲染时无需额外计算开销。实验数据显示,该模块使室内场景的PSNR指标从26.64提升至27.02,而渲染速度不受任何影响。
在气泡数量控制方面,多视角Alpha加权密化与剪枝策略构建了全局优化框架。系统首先通过分层相机采样技术,从训练数据中选取6个最具代表性的观察视角,计算每个气泡在不同视角下的渲染误差与Alpha贡献值。重要性分数高的气泡将被分裂细化,而透明度低且剪枝分数高的冗余气泡则会被移除。这种多视角评估机制使室内场景的气泡数量从145万个降至22万个,存储空间压缩至2.1MB,同时保持PSNR指标仅下降0.19dB。
完整的训练流程分为三个阶段:前3000次迭代使用完整三阶球谐函数确保初始精度,随后启用MC-SEA进行信息压缩转换,最后通过属性增强模块进行细节优化。整个训练过程在RTX 4090显卡上仅需11分钟,较Mobile-GS方案提速近8倍。研究团队开发的WebGL渲染框架更突破传统限制,通过CPU-GPU异步协作机制,使骁龙8 Gen 3手机上的渲染帧率达到147帧/秒,较同类方案提升12%。
在Mip-NeRF 360、Tanks and Temples等标准数据集的测试中,Flux-GS展现出显著优势。室外场景测试显示,其以0.48MB的存储空间实现23.27的PSNR指标,渲染速度达132帧/秒,三项核心指标均优于对比方法。用户主观评测中,60%的参与者认为Flux-GS的渲染质量更优,特别指出其画面中的"漂浮物"和渲染瑕疵明显减少。
这项研究仍存在局限性。压缩至一阶球谐函数后,对镜面级强烈反射的描述能力有所下降;训练初期仍需存储三阶球谐函数导致峰值内存消耗较高;多视角剪枝策略可能误删极端视角下的微小细节。针对这些挑战,研究团队提出将多视角指导与码本压缩技术结合、探索动态场景渲染等未来方向。对于普通用户而言,这项技术意味着用不到2MB空间存储完整室外场景、在手机浏览器中实现130帧/秒渲染的现实可能,正在为移动端3D内容消费带来实质性突破。








