[LG]《DesignPrinciplesforSequenceMode

爱生活爱珂珂 2025-10-14 08:08:30

[LG]《Design Principles for Sequence Models via Coefficient Dynamics》J Sieber, A Orvieto, M N. Zeilinger, C A Alonso [ETH Zurich & ELLIS Institute Tübingen] (2025)

全面揭示序列模型设计的统一数学框架,梳理核心设计原则,助力模型架构创新。

🔑核心观点:

1️⃣ 统一视角:序列模型输出均可视为对过去value向量的线性组合,系数由自主线性动力系统(受脉冲输入驱动)生成。此框架涵盖Transformer、状态空间模型(SSM)、门控线性RNN等主流架构,且兼容softmax attention。

2️⃣ 设计原则六大核心

- 读出映射ϕ(·)选线性时支持高效递归计算,非线性虽提升输入选择性但计算成本高(Principle 1 & 2)。

- 位置编码本质由演化矩阵At控制,非恒等矩阵At内嵌位置信息,恒等矩阵需显式位置编码(Principle 3)。

- 演化矩阵At结构限制对key的缩放与旋转操作,合理设计可增强模型表达力(Principle 4)。

- 缩放参数bj合理设置(如bj=O(1/√n))保证训练稳定,避免方差爆炸(Principle 5)。

- 归一化因子ηi设计应抑制系数增长,保障数值稳定(Principle 6)。

3️⃣ 理论洞见:

- 线性读出映射利于实现线性时间复杂度。

- 零系数的几何结构影响模型输入选择能力,非线性映射零点集较大,抑制效果更稳健。

- 核函数近似读出映射零点集测度为零,输入选择性较脆弱。

- 多个系数同时置零受限于隐藏状态维度,超出维度限制则需零查询向量。

4️⃣ 实验验证:

- 在MAD基准任务(模糊上下文回忆、选择性复制、噪声上下文回忆等)中,验证各原则对模型性能和训练稳定性的影响。

- 线性映射读出提升计算效率,非线性映射提升输入选择能力。

- 设计非恒等At可替代位置编码完成位置信息表达。

- 归一化因子设计关键应对不稳定演化矩阵。

5️⃣ 统一框架优势:

- 表1详述多种架构的系数动力系统参数对应关系。

- 该视角有助于消除单一任务基准验证的偶然性,推动序列模型设计从经验驱动转向理论驱动。

🌟思考意义:

- 该工作首次通过线性动力系统解析序列模型内核系数的生成机制,揭示软max attention与线性attention、SSM等的本质联系。

- 为未来融合线性与非线性机制、混合模型设计提供理论指导。

- 多层模型及优化动态仍待深入探究,期待后续扩展。

🔗论文链接:arxiv.org/abs/2510.09389

序列模型 Transformer 状态空间模型 机器学习 深度学习 模型设计 理论指南

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注