6月16日消息,旧金山语音AI公司Cartesia推出Sonic 3.5(文本转语音)和Ink 2(语音转文本)两款流式模型,据Artificial Analysis的Speech Arena和流式STT排行榜数据,两款模型分别在各自类别中排名第一。Cartesia称自己是目前唯一同时在TTS和STT两个排行榜上拥有头名模型的供应商。
Sonic 3.5:SSM架构下的自然度与延迟竞赛
Sonic 3.5在Artificial Analysis Speech Arena上的Elo评分约在1205至1218区间(排行榜每周更新,具体排名随时间波动)。据MarkTechPost 5月30日的基准对比文章,Sonic 3.5与Gemini 3.1 Flash TTS、Inworld Realtime TTS-2和ElevenLabs v3同处当前"顶级梯队"。相比此前的Sonic 3(5月中旬排名约第26位),3.5版本的排名跃升幅度非常明显。 技术层面,Sonic 3.5基于Cartesia自研的State Space Models(SSM)架构——与主流TTS采用的Transformer不同,SSM在流式推理场景下的计算效率更高。据官方数据,首音频延迟(Time-to-First-Audio)为82毫秒(P90约100毫秒),支持42种语言(包括9种印度语言),提供情感自动解读(根据文本语义调整语调和节奏)以及仅需10秒音频的即时语音克隆。
一个面向生产环境的实用特性是原生字母数字处理——订单号、电话号码、确认码、UUID等结构化数据无需文本预处理即可正确发音。据Cartesia官网引用的客户反馈,一家切换至Sonic 3.5的企业报告转化率提升2.9%,用户参与度提升12.2%。
Ink 2:语义端点检测取代外部VAD
Ink 2是Cartesia的流式语音转文本模型,在Artificial Analysis流式STT排行榜上以约3.6%的字错误率(WER)排名准确率第一(含噪声环境),最终转录延迟约100毫秒。
Ink 2最值得关注的设计选择是原生语义端点检测(semantic endpointing)。传统语音Agent管线中,判断"用户是否说完了"通常依赖外部VAD(Voice Activity Detection)组件——这是一个独立的模块,通过检测音频中的静音段来判断发言结束。Ink 2将这一功能内建到模型中,直接输出turn.start和turn.end信号,还提供turn.eager_end信号让下游LLM在用户尚未完全说完时就开始准备响应,从而压缩整体对话延迟。这意味着语音Agent的管线可以少一个组件,集成复杂度降低。
需要注意的是,Ink 2目前仅支持英语,多语言支持计划在后续版本中加入。相比之下,竞品ElevenLabs Scribe v2以2.3%的WER保持更高的原始准确率,但定价为每千分钟6.67美元,且不具备Ink 2的原生端点检测能力。
竞争格局:TTS市场进入多维竞争阶段
将Cartesia放在2026年中的语音AI市场中,有几个值得关注的竞争维度。
自然度(Elo评分)方面,顶级梯队竞争极为激烈。据Gradium 5月数据,Inworld Realtime TTS 1.5 Max(Elo 1208)、Google Gemini 3.1 Flash TTS(Elo 1206)长期占据前两位,Cartesia Sonic 3.5的1205-1218区间意味着差距在统计误差范围内。ElevenLabs Eleven v3(Elo约1170+)和MiniMax Speech 2.8 HD也在前十。
延迟方面,Cartesia的82毫秒TTFB是其核心差异化卖点,据Cekura的语音Agent TTS对比测试,Sonic系列在中断处理和WebSocket流式场景中的表现是"其他Transformer架构模型在规模化部署时难以匹配的"。
价格方面,Speechify SIMBA 3.0以每百万字符10美元的价格在5月进入了全球前十(排名第7,Elo 1159),比Cartesia便宜得多,且其上方的所有模型定价都更高。StepAudio 2.5 TTS定价85美元/百万字符、ElevenLabs v3为100美元/百万字符。Cartesia的具体API定价采用按字符计费的信用制,根据套餐层级不同而变化。
据MarkTechPost的总结,当前TTS市场没有单一模型在所有维度上获胜——选择取决于约束条件是延迟、质量、语言覆盖还是成本。Cartesia的定位是"延迟敏感的实时语音Agent场景",在这个细分中SSM架构确实提供了结构性优势,但在纯自然度评分上并未拉开决定性差距。
几个需要留意的问题
首先,"排行榜第一"的说法需要加上时间戳。Artificial Analysis Speech Arena的Elo评分每周更新,Sonic 3从5月中旬的第26位跳至3.5版本的头名区间,说明排名波动性很大。这也意味着竞品的下一次更新可能重新洗牌。
其次,Ink 2的英语限定是一个显著局限。Sonic 3.5支持42种语言,但STT端仅支持英语,意味着Cartesia宣称的"统一语音技术栈"目前只在英语场景中完整成立。对于需要多语言语音Agent的企业客户来说,STT侧仍需依赖其他供应商。
第三,Cartesia的团队源自斯坦福AI实验室,其SSM架构(包括Mamba和H-Nets)是其技术基底。在TTS领域SSM相对于Transformer的效率优势已有初步验证,但这一架构路线能否在参数规模继续扩大时保持优势,以及能否泛化到更复杂的语音理解任务(如多说话人场景、代码混合语言等),目前的公开数据还不足以下定论。
官网:https://cartesia.ai/
Sonic 3.5:https://cartesia.ai/sonic/
Ink 2:https://cartesia.ai/ink/