[LG]《DesignPrinciplesforSequenceMode

[LG]《Design Principles for Sequence Models via Coefficient Dynamics》J Sieber, A Orvieto, M N. Zeilinger, C A Alonso [ETH Zurich & ELLIS Institute Tübingen] (2025)

全面揭示序列模型设计的统一数学框架，梳理核心设计原则，助力模型架构创新。

🔑核心观点：

1️⃣ 统一视角：序列模型输出均可视为对过去value向量的线性组合，系数由自主线性动力系统（受脉冲输入驱动）生成。此框架涵盖Transformer、状态空间模型（SSM）、门控线性RNN等主流架构，且兼容softmax attention。

2️⃣ 设计原则六大核心

- 读出映射ϕ(·)选线性时支持高效递归计算，非线性虽提升输入选择性但计算成本高（Principle 1 & 2）。

- 位置编码本质由演化矩阵At控制，非恒等矩阵At内嵌位置信息，恒等矩阵需显式位置编码（Principle 3）。

- 演化矩阵At结构限制对key的缩放与旋转操作，合理设计可增强模型表达力（Principle 4）。

- 缩放参数bj合理设置（如bj=O(1/√n)）保证训练稳定，避免方差爆炸（Principle 5）。

- 归一化因子ηi设计应抑制系数增长，保障数值稳定（Principle 6）。

3️⃣ 理论洞见：

- 线性读出映射利于实现线性时间复杂度。

- 零系数的几何结构影响模型输入选择能力，非线性映射零点集较大，抑制效果更稳健。

- 核函数近似读出映射零点集测度为零，输入选择性较脆弱。

- 多个系数同时置零受限于隐藏状态维度，超出维度限制则需零查询向量。

4️⃣ 实验验证：

- 在MAD基准任务（模糊上下文回忆、选择性复制、噪声上下文回忆等）中，验证各原则对模型性能和训练稳定性的影响。

- 线性映射读出提升计算效率，非线性映射提升输入选择能力。

- 设计非恒等At可替代位置编码完成位置信息表达。

- 归一化因子设计关键应对不稳定演化矩阵。

5️⃣ 统一框架优势：

- 表1详述多种架构的系数动力系统参数对应关系。

- 该视角有助于消除单一任务基准验证的偶然性，推动序列模型设计从经验驱动转向理论驱动。

🌟思考意义：

- 该工作首次通过线性动力系统解析序列模型内核系数的生成机制，揭示软max attention与线性attention、SSM等的本质联系。

- 为未来融合线性与非线性机制、混合模型设计提供理论指导。

- 多层模型及优化动态仍待深入探究，期待后续扩展。

🔗论文链接：arxiv.org/abs/2510.09389

序列模型 Transformer 状态空间模型机器学习深度学习模型设计理论指南

0 阅读：0

[LG]《DesignPrinciplesforSequenceMode

工业克苏鲁什么意思?-----------------------------

来个人解释下什么原理

[LG]《DesignPrinciplesforSequenceMode

工业克苏鲁什么意思?-----------------------------

来个人解释下什么原理​​​​

来个人解释下什么原理