Cartesia同时拿下TTS和STT排行榜头名：Sonic 3.5首音频延迟82毫秒，Ink 2免外部VAD原生端点检测

2026-06-16 17:45

6月16日消息，旧金山语音AI公司Cartesia推出Sonic 3.5（文本转语音）和Ink 2（语音转文本）两款流式模型，据Artificial Analysis的Speech Arena和流式STT排行榜数据，两款模型分别在各自类别中排名第一。Cartesia称自己是目前唯一同时在TTS和STT两个排行榜上拥有头名模型的供应商。

Cartesia同时拿下TTS和STT排行榜头名：Sonic 3.5首音频延迟82毫秒，Ink 2免外部VAD原生端点检测

Sonic 3.5：SSM架构下的自然度与延迟竞赛

Sonic 3.5在Artificial Analysis Speech Arena上的Elo评分约在1205至1218区间（排行榜每周更新，具体排名随时间波动）。据MarkTechPost 5月30日的基准对比文章，Sonic 3.5与Gemini 3.1 Flash TTS、Inworld Realtime TTS-2和ElevenLabs v3同处当前"顶级梯队"。相比此前的Sonic 3（5月中旬排名约第26位），3.5版本的排名跃升幅度非常明显。

技术层面，Sonic 3.5基于Cartesia自研的State Space Models（SSM）架构——与主流TTS采用的Transformer不同，SSM在流式推理场景下的计算效率更高。据官方数据，首音频延迟（Time-to-First-Audio）为82毫秒（P90约100毫秒），支持42种语言（包括9种印度语言），提供情感自动解读（根据文本语义调整语调和节奏）以及仅需10秒音频的即时语音克隆。

一个面向生产环境的实用特性是原生字母数字处理——订单号、电话号码、确认码、UUID等结构化数据无需文本预处理即可正确发音。据Cartesia官网引用的客户反馈，一家切换至Sonic 3.5的企业报告转化率提升2.9%，用户参与度提升12.2%。

Ink 2：语义端点检测取代外部VAD

Ink 2是Cartesia的流式语音转文本模型，在Artificial Analysis流式STT排行榜上以约3.6%的字错误率（WER）排名准确率第一（含噪声环境），最终转录延迟约100毫秒。

Ink 2最值得关注的设计选择是原生语义端点检测（semantic endpointing）。传统语音Agent管线中，判断"用户是否说完了"通常依赖外部VAD（Voice Activity Detection）组件——这是一个独立的模块，通过检测音频中的静音段来判断发言结束。Ink 2将这一功能内建到模型中，直接输出turn.start和turn.end信号，还提供turn.eager_end信号让下游LLM在用户尚未完全说完时就开始准备响应，从而压缩整体对话延迟。这意味着语音Agent的管线可以少一个组件，集成复杂度降低。

需要注意的是，Ink 2目前仅支持英语，多语言支持计划在后续版本中加入。相比之下，竞品ElevenLabs Scribe v2以2.3%的WER保持更高的原始准确率，但定价为每千分钟6.67美元，且不具备Ink 2的原生端点检测能力。

竞争格局：TTS市场进入多维竞争阶段

将Cartesia放在2026年中的语音AI市场中，有几个值得关注的竞争维度。

自然度（Elo评分）方面，顶级梯队竞争极为激烈。据Gradium 5月数据，Inworld Realtime TTS 1.5 Max（Elo 1208）、Google Gemini 3.1 Flash TTS（Elo 1206）长期占据前两位，Cartesia Sonic 3.5的1205-1218区间意味着差距在统计误差范围内。ElevenLabs Eleven v3（Elo约1170+）和MiniMax Speech 2.8 HD也在前十。

延迟方面，Cartesia的82毫秒TTFB是其核心差异化卖点，据Cekura的语音Agent TTS对比测试，Sonic系列在中断处理和WebSocket流式场景中的表现是"其他Transformer架构模型在规模化部署时难以匹配的"。

价格方面，Speechify SIMBA 3.0以每百万字符10美元的价格在5月进入了全球前十（排名第7，Elo 1159），比Cartesia便宜得多，且其上方的所有模型定价都更高。StepAudio 2.5 TTS定价85美元/百万字符、ElevenLabs v3为100美元/百万字符。Cartesia的具体API定价采用按字符计费的信用制，根据套餐层级不同而变化。

据MarkTechPost的总结，当前TTS市场没有单一模型在所有维度上获胜——选择取决于约束条件是延迟、质量、语言覆盖还是成本。Cartesia的定位是"延迟敏感的实时语音Agent场景"，在这个细分中SSM架构确实提供了结构性优势，但在纯自然度评分上并未拉开决定性差距。

几个需要留意的问题

首先，"排行榜第一"的说法需要加上时间戳。Artificial Analysis Speech Arena的Elo评分每周更新，Sonic 3从5月中旬的第26位跳至3.5版本的头名区间，说明排名波动性很大。这也意味着竞品的下一次更新可能重新洗牌。

其次，Ink 2的英语限定是一个显著局限。Sonic 3.5支持42种语言，但STT端仅支持英语，意味着Cartesia宣称的"统一语音技术栈"目前只在英语场景中完整成立。对于需要多语言语音Agent的企业客户来说，STT侧仍需依赖其他供应商。

第三，Cartesia的团队源自斯坦福AI实验室，其SSM架构（包括Mamba和H-Nets）是其技术基底。在TTS领域SSM相对于Transformer的效率优势已有初步验证，但这一架构路线能否在参数规模继续扩大时保持优势，以及能否泛化到更复杂的语音理解任务（如多说话人场景、代码混合语言等），目前的公开数据还不足以下定论。

官网：https://cartesia.ai/

Sonic 3.5：https://cartesia.ai/sonic/

Ink 2：https://cartesia.ai/ink/

好文章，需要你的鼓励