微信 × 清华 CALM 模型：颠覆 LLM 逐 token 范式，以连续向量实现效率革命

2026-01-26 20:21

腾讯微信AI联合清华大学发布连续自回归语言模型（CALM），核心突破是将传统LLM“逐离散词元（token）预测”转为“逐连续向量预测”，通过高保真自编码器压缩多词元为单向量，使生成步骤减少K倍（K为压缩词元数），在降低44%训练计算量、34%推理计算量的同时，性能媲美传统离散模型，为超高效LLM提供全新范式。

一、研究背景：传统LLM的效率瓶颈源于“离散词元”

当前大型语言模型（LLM）的核心运作逻辑是“逐token自回归预测”，这一范式虽保证生成连贯性，却存在两大固有局限，成为效率瓶颈：

信息密度极低：以32K词表为例，单个token仅承载15比特信息（log₂32768≈15），即便模型具备强推理能力，每步仅能输出低信息量单元，生成长文本需大量步骤，导致延迟高；

信息密度难扩展：若想让token承载更多语义（如短语），词表规模需指数级增长，引发计算与存储成本爆炸，离散表示本质为单步生成的信息吞吐量设下上限。

这种“强模型（大参数）与弱任务（细粒度token预测）”的不匹配，让LLM陷入“性能提升依赖算力堆砌”的困境，亟需从范式层面突破。

二、CALM核心原理：从“离散token”到“连续向量”的范式转移

CALM的核心思路是将语言建模的基本单位从“单个离散token”升级为“K个token压缩的连续向量”，通过高保真自编码器实现“向量与token块”的双向映射，从根本上减少生成步骤：

高保真自编码器：向量与token的桥梁

自编码器分为“编码器”与“解码器”：

编码器：将连续K个token（实验中K=4）压缩为1个稠密连续向量（如128维）；

解码器：从该向量中以超99.9%准确率重建原始K个token，确保向量完全承载原token的语义信息。

为应对“模型预测向量存在误差”的问题，自编码器被设计为变分自编码器（VAE）：引入高斯分布平滑向量空间，加入Dropout迫使模型学习抗干扰的冗余表示，可承受标准差≈0.3的高斯噪声，仍保持高重建精度。

生成步骤锐减：从T步到T/K步

传统LLM处理长度为T的token序列需T次自回归步骤；CALM先将T个token按K个一组压缩为T/K个连续向量，模型仅需预测T/K个向量，再通过解码器还原为token，生成步骤直接减少K倍（如K=4时，步骤仅为传统模型的1/4）。

三、关键技术：解决连续向量建模的四大挑战

从“离散”到“连续”的转变，导致传统LLM的训练、评估、可控生成方法失效，CALM通过一套无似然（likelihood-free）技术体系逐一突破：

1.模型训练：能量分数损失（Energy Score）

连续向量空间无法用softmax计算概率分布，CALM采用“能量分数”作为训练目标，无需依赖概率密度：

核心逻辑：通过样本间距离评估生成质量，公式为S(P,y)=E[||x'-x''||]-2E[||x-y||]（P为模型预测分布，y为真实向量，x'、x''、x为采样样本）；

双目标平衡：第一项（E[||x'-x''||]）驱动生成多样性，防止模式坍塌；第二项（2E[||x-y||]）驱动准确性，使生成向量逼近真实值；

效率保障：采用“单步生成头（Energy Transformer）”，无需扩散模型/流匹配模型的多步迭代，避免抵消步骤减少的效率优势。

2.性能评估：BrierLM指标替代困惑度

传统困惑度（Perplexity）依赖概率计算，无法用于连续模型，CALM提出BrierLM指标：

基础原理：基于气象学“Brier分数”，通过两次独立采样估算模型准确性与多样性，无偏估计式为Brier(P,y)≈I{x₁=y}+I{x₂=y}-I{x₁=x₂}（I为指示函数，x₁、x₂为模型采样样本）；

综合指标：取1-4元语法（n-gram）Brier分数的几何平均，即为BrierLM；实验验证其与传统交叉熵损失高度负相关（Pearson相关系数-0.966），可公平对比离散与连续模型。

3.可控生成：无似然温度采样

传统温度采样依赖调整token的logits，CALM通过拒绝采样+伯努利工厂理论实现温度控制：

核心逻辑：对目标温度T，将其分解为“整数部分+分数部分”，整数部分通过“重复采样n次且结果一致”实现，分数部分通过迭代拒绝验证；

效率优化：提出“批量近似算法”，一次性采样大量样本，在批内寻找符合条件的重复样本，批大小越大，结果越逼近目标分布，解决低温下高拒绝率问题。

4.输入设计：离散反馈提升稳定性

CALM未直接将预测向量输入Transformer主干，而是先解码为token、再压缩为向量后输入——这一“离散反馈”设计可保留语义结构，避免模型从高度压缩的向量中丢失信息，实验证明比直接输入向量的性能提升15%以上。

四、实验结果：效率与性能的平衡突破

在标准语言建模任务中，CALM展现出显著的“性能-计算”优势：

核心对比：371M参数的CALM-M（K=4）与281M参数的传统Transformer-S性能相当（BrierLM分别为5.72 vs 6.05），但训练FLOPs减少44%（3.7×10²⁰vs 6.6×10²⁰），推理FLOPs减少34%（2.9×10⁸/token vs 4.4×10⁸/token）；

K值影响：K=4是最优平衡点——K增大（如K=8）虽进一步减少计算量，但模型难以承接过大语义带宽，导致性能下降；K=1时性能弱于离散模型，证明“连续向量”的优势需通过多token压缩体现；

生成头对比：能量分数生成头的性能（BrierLM=5.72）优于扩散模型（BrierLM≈3.5）与流匹配模型（BrierLM≈4.2），且单步生成避免效率损耗。

五、总结与未来方向

CALM的核心价值在于打破“LLM效率依赖算力堆砌”的惯性，通过“提升单步语义带宽”开辟新优化路径，其范式转移意义体现在：从“优化模型结构/训练技巧”转向“重构预测基本单位”，为千亿级高效LLM提供可行方案。

未来研究方向聚焦三点：

自编码器语义优化：当前自编码器仅关注token重建，需进一步让其理解语义逻辑，提升向量的语义承载能力；

建立新缩放定律：探索“语义带宽K”与模型参数、数据量的协同缩放关系，指导大模型高效设计；

适配现有算法生态：将强化学习、知识蒸馏等技术改造为“无似然兼容版本”，完善连续模型的工具链。

好文章，需要你的鼓励