谷歌Gemini 2.5 Flash/Pro TTS功能更新，支持情感语音合成

2025-12-11 13:54

阅读83

12月11日，Google宣布推出Gemini 2.5 Flash和Gemini 2.5 Pro文本转语音（TTS）预览模型，开发者可通过Google AI Studio的Gemini API使用。

新模型主要面向需要丰富语音表现的应用场景，如有声书朗读、在线教育、产品教程、播客以及多角色配音。

此次更新增强了语音的表现力，更严格地遵循风格提示，并在语速调节上更智能，支持多说话人的一致性，现在覆盖24种语言。Gemini 2.5 Flash TTS针对低延迟场景优化，适合交互应用；Gemini 2.5 Pro TTS则优先保证高保真语音质量，适合对音质要求高的项目。两者都能精细控制语速、音色和角色特征，并在多语言表现上更稳定。

比如在客服领域，可用于构建多角色智能语音客服，模拟不同岗位人员与客户沟通；在内容创作领域，能快速将小说、脚本转化为多角色有声内容，助力有声书、广播剧类AI应用高效生产；在教育领域，还能生成多语言、带不同语气的教学语音，适配多语种教学类AI应用。

早期开发者反馈，新模型在对话创作、发音和语调调整上表现出色，能够为不同角色生成符合场景的影视级配音。

Google表示，将继续在生成语音技术上发力，为开发者提供可灵活适应多样化创作需求的工具，让语音生成更逼真、更可定制。

Gemini 2.5 Flash升级后在保证性能的前提下减少了20%-30%的token使用量，能降低开发者调用TTS功能的成本。而且模型提供现成的原生音频输出能力，开发者无需单独开发复杂的语音合成模块，可快速集成到自身应用中，加速AI应用的开发与落地进程。

好文章，需要你的鼓励