阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX

2025-11-11 14:19

近期，阶跃星辰发布了全球首个开源LLM级音频编辑大模型——Step-Audio-EditX。

该模型能够通过语言指令或迭代方式，精准控制音频的情感、说话风格和副语言特征，并实现零样本文本转语音（Zero-Shot TTS）。

不同于以往依赖多模块拼接的方案，Step-Audio-EditX采用统一的LLM框架，让“文字驱动音频创作”真正变为现实。

开源协议：Apache 2.0

Github：https://github.com/stepfun-ai/Step-Audio-EditX

Model：https://www.modelscope.cn/models/stepfun-ai/Step-Audio-EditX

Technical Report：

https://www.modelscope.cn/papers/2511.03601

使用提示:

模型与部分训练数据可自由研究与非商用使用，商用需遵守对应授权条款。

Step-Audio-EditX的核心设计可概括为三部分：

音频分词器（Tokenizer）

使用“双码本”结构，将音频分解为离散token：

•语言码本：1024项，16.7 Hz采样频率；

•语义码本：4096项，25 Hz采样频率。

这种双路径分词方式让模型能同时捕捉语言内容与声学细节。

音频大语言模型（Audio LLM）

在音频token与文本token的联合输入下生成目标音频token，参数约3 B。

它的输入格式类似聊天框：“文本+音频”，输出即为新音频的token序列。

解码器（Decoder）

通过Flow Matching模块生成Mel谱图，并由BigVGAN v2声码器合成音频。

这一流程让音频生成质量与真实录音相近，且可控性极强。

多维度情感与风格控制

Step-Audio-EditX可以通过简单的指令控制音频的：

•情感：愤怒、喜悦、悲伤、恐惧、惊讶、厌恶等

•说话风格：夸张、认真、孩童、低语、年长、俏皮等

•副语言元素：呼吸声、笑声、叹息、语气词（嗯、唉、哎呀等）

更重要的是，它支持迭代式编辑——可在原音基础上多轮微调，实现自然、可累积的情感强化。

零样本TTS（Zero-Shot TTS）

无需录音样本，仅凭参考音频或风格描述，即可生成新语音。

例如：

“将这段话改为粤语，带一点俏皮语气。”

即可立刻输出对应版本的音频。

模型支持中英双语及多方言，让TTS真正实现“所写即所听”。

大规模合成数据训练

与传统模型依赖复杂的音频先验模块不同，Step-Audio-EditX使用大边距合成数据（Large-Margin Synthetic Data）训练，直接通过属性差异拉大（如“同文本、异情感”样本）实现情感与风格的解耦学习。

这一策略让模型具备天然的“可控”特性，能够理解并执行复杂的语音编辑指令。

好文章，需要你的鼓励