微信 × 清华 CALM 模型:颠覆 LLM 逐 token 范式,以连续向量实现效率革命
2026-01-26 20:21
48
腾讯微信AI联合清华大学发布连续自回归语言模型(CALM),核心突破是将传统LLM“逐离散词元(token)预测”转为“逐连续向量预测”,通过高保真自编码器压缩多词元为单向量,使生成步骤减少K倍(K为压缩词元数),在降低44%训练计算量、34%推理计算量的同时,性能媲美传统离散模型,为超高效LLM提供全新范式。

一、研究背景:传统LLM的效率瓶颈源于“离散词元”
当前大型语言模型(LLM)的核心运作逻辑是“逐token自回归预测”,这一范式虽保证生成连贯性,却存在两大固有局限,成为效率瓶颈:
信息密度极低:以32K词表为例,单个token仅承载15比特信息(log₂32768≈15),即便模型具备强推理能力,每步仅能输出低信息量单元,生成长文本需大量步骤,导致延迟高;
信息密度难扩展:若想让token承载更多语义(如短语),词表规模需指数级增长,引发计算与存储成本爆炸,离散表示本质为单步生成的信息吞吐量设下上限。
这种“强模型(大参数)与弱任务(细粒度token预测)”的不匹配,让LLM陷入“性能提升依赖算力堆砌”的困境,亟需从范式层面突破。
二、CALM核心原理:从“离散token”到“连续向量”的范式转移
CALM的核心思路是将语言建模的基本单位从“单个离散token”升级为“K个token压缩的连续向量”,通过高保真自编码器实现“向量与token块”的双向映射,从根本上减少生成步骤:
高保真自编码器:向量与token的桥梁
自编码器分为“编码器”与“解码器”:
编码器:将连续K个token(实验中K=4)压缩为1个稠密连续向量(如128维);
解码器:从该向量中以超99.9%准确率重建原始K个token,确保向量完全承载原token的语义信息。
为应对“模型预测向量存在误差”的问题,自编码器被设计为变分自编码器(VAE):引入高斯分布平滑向量空间,加入Dropout迫使模型学习抗干扰的冗余表示,可承受标准差≈0.3的高斯噪声,仍保持高重建精度。
生成步骤锐减:从T步到T/K步
传统LLM处理长度为T的token序列需T次自回归步骤;CALM先将T个token按K个一组压缩为T/K个连续向量,模型仅需预测T/K个向量,再通过解码器还原为token,生成步骤直接减少K倍(如K=4时,步骤仅为传统模型的1/4)。
三、关键技术:解决连续向量建模的四大挑战
从“离散”到“连续”的转变,导致传统LLM的训练、评估、可控生成方法失效,CALM通过一套无似然(likelihood-free)技术体系逐一突破:
1.模型训练:能量分数损失(Energy Score)
连续向量空间无法用softmax计算概率分布,CALM采用“能量分数”作为训练目标,无需依赖概率密度:
核心逻辑:通过样本间距离评估生成质量,公式为S(P,y)=E[||x'-x''||]-2E[||x-y||](P为模型预测分布,y为真实向量,x'、x''、x为采样样本);
双目标平衡:第一项(E[||x'-x''||])驱动生成多样性,防止模式坍塌;第二项(2E[||x-y||])驱动准确性,使生成向量逼近真实值;
效率保障:采用“单步生成头(Energy Transformer)”,无需扩散模型/流匹配模型的多步迭代,避免抵消步骤减少的效率优势。
2.性能评估:BrierLM指标替代困惑度
传统困惑度(Perplexity)依赖概率计算,无法用于连续模型,CALM提出BrierLM指标:
基础原理:基于气象学“Brier分数”,通过两次独立采样估算模型准确性与多样性,无偏估计式为Brier(P,y)≈I{x₁=y}+I{x₂=y}-I{x₁=x₂}(I为指示函数,x₁、x₂为模型采样样本);
综合指标:取1-4元语法(n-gram)Brier分数的几何平均,即为BrierLM;实验验证其与传统交叉熵损失高度负相关(Pearson相关系数-0.966),可公平对比离散与连续模型。
3.可控生成:无似然温度采样
传统温度采样依赖调整token的logits,CALM通过拒绝采样+伯努利工厂理论实现温度控制:
核心逻辑:对目标温度T,将其分解为“整数部分+分数部分”,整数部分通过“重复采样n次且结果一致”实现,分数部分通过迭代拒绝验证;
效率优化:提出“批量近似算法”,一次性采样大量样本,在批内寻找符合条件的重复样本,批大小越大,结果越逼近目标分布,解决低温下高拒绝率问题。
4.输入设计:离散反馈提升稳定性
CALM未直接将预测向量输入Transformer主干,而是先解码为token、再压缩为向量后输入——这一“离散反馈”设计可保留语义结构,避免模型从高度压缩的向量中丢失信息,实验证明比直接输入向量的性能提升15%以上。
四、实验结果:效率与性能的平衡突破
在标准语言建模任务中,CALM展现出显著的“性能-计算”优势:
核心对比:371M参数的CALM-M(K=4)与281M参数的传统Transformer-S性能相当(BrierLM分别为5.72 vs 6.05),但训练FLOPs减少44%(3.7×10²⁰vs 6.6×10²⁰),推理FLOPs减少34%(2.9×10⁸/token vs 4.4×10⁸/token);
K值影响:K=4是最优平衡点——K增大(如K=8)虽进一步减少计算量,但模型难以承接过大语义带宽,导致性能下降;K=1时性能弱于离散模型,证明“连续向量”的优势需通过多token压缩体现;
生成头对比:能量分数生成头的性能(BrierLM=5.72)优于扩散模型(BrierLM≈3.5)与流匹配模型(BrierLM≈4.2),且单步生成避免效率损耗。
五、总结与未来方向
CALM的核心价值在于打破“LLM效率依赖算力堆砌”的惯性,通过“提升单步语义带宽”开辟新优化路径,其范式转移意义体现在:从“优化模型结构/训练技巧”转向“重构预测基本单位”,为千亿级高效LLM提供可行方案。
未来研究方向聚焦三点:
自编码器语义优化:当前自编码器仅关注token重建,需进一步让其理解语义逻辑,提升向量的语义承载能力;
建立新缩放定律:探索“语义带宽K”与模型参数、数据量的协同缩放关系,指导大模型高效设计;
适配现有算法生态:将强化学习、知识蒸馏等技术改造为“无似然兼容版本”,完善连续模型的工具链。
0
好文章,需要你的鼓励
