[CV]《Visual Diffusion Models are Geometric Solvers》N Goren, S Yehezkel, O Dahary, A Voynov... [Tel Aviv University] (2025)
视觉扩散模型:通用几何问题的强大求解器
本文提出了一种创新视角:利用标准视觉扩散模型,直接在像素空间中求解复杂几何问题。研究团队来自特拉维夫大学与Google DeepMind,成果令人振奋。
核心亮点:
1. 方法创新:将几何问题转化为图像生成任务,训练扩散模型从随机高斯噪声逐步生成满足约束的几何结构。无需专门设计复杂参数化表示,直接利用视觉表示,简洁且高效。
2. 经典难题案例:
- 内接正方形问题(Square Peg Problem):探索每条Jordan曲线是否存在四点构成正方形。模型能生成多样且高质量的近似正方形解,支持多样性采样。
- 斯坦纳树问题(Steiner Tree Problem):寻找连接指定点集合的最短网络,容许引入辅助点。模型生成的网络不仅接近最优解,且具备较强泛化能力,能处理比训练时更多的点。
- 最大面积简单多边形问题(Maximum Area Polygon Problem):在给定点集上构造最大面积的简单多边形。模型在小规模点集上达到接近最优的解,并能生成高质量有效的多边形。
3. 训练与评估:
- 数据集通过合成生成,包含大量问题与对应高质量解的图像。
- 采用标准U-Net架构,结合条件扩散,训练过程无特殊复杂设计。
- 评估体现模型在对齐度、解的几何质量及有效性上的优异表现。
4. 优势与启示:
- 视觉扩散模型展现出解决组合几何问题的潜力,尤其适合多解、多模态的复杂任务。
- 模型训练于较小实例,测试时能泛化至更大规模问题,突破传统算法受限于输入规模的瓶颈。
- 采样过程类似人类逐步构建粗略到精细解的思考路径,提供了直观的推理过程。
5. 未来展望:
- 本研究为几何计算领域带来崭新方法论,打通生成建模与数学问题求解之间的桥梁。
- 视觉扩散求解框架可扩展至更多难题,推动自动化设计、图形学、网络优化等应用。
全文链接:arxiv.org/abs/2510.21697
总结:这项工作不仅拓宽了扩散模型的应用边界,更为传统几何难题带来了全新求解思路。通过简单统一的视觉处理框架,实现了对多个NP难题的有效近似求解,开创了生成模型辅助数学推理的新纪元。










