谷歌Gemini 2.5 Flash/Pro TTS功能更新,支持情感语音合成

2025-12-11 13:54
阅读83

12月11日,Google宣布推出Gemini 2.5 Flash和Gemini 2.5 Pro文本转语音(TTS)预览模型,开发者可通过Google AI Studio的Gemini API使用。

image.png

新模型主要面向需要丰富语音表现的应用场景,如有声书朗读、在线教育、产品教程、播客以及多角色配音。

此次更新增强了语音的表现力,更严格地遵循风格提示,并在语速调节上更智能,支持多说话人的一致性,现在覆盖24种语言。Gemini 2.5 Flash TTS针对低延迟场景优化,适合交互应用;Gemini 2.5 Pro TTS则优先保证高保真语音质量,适合对音质要求高的项目。两者都能精细控制语速、音色和角色特征,并在多语言表现上更稳定。

比如在客服领域,可用于构建多角色智能语音客服,模拟不同岗位人员与客户沟通;在内容创作领域,能快速将小说、脚本转化为多角色有声内容,助力有声书、广播剧类AI应用高效生产;在教育领域,还能生成多语言、带不同语气的教学语音,适配多语种教学类AI应用。

早期开发者反馈,新模型在对话创作、发音和语调调整上表现出色,能够为不同角色生成符合场景的影视级配音。

Google表示,将继续在生成语音技术上发力,为开发者提供可灵活适应多样化创作需求的工具,让语音生成更逼真、更可定制。

Gemini 2.5 Flash升级后在保证性能的前提下减少了20%-30%的token使用量,能降低开发者调用TTS功能的成本。而且模型提供现成的原生音频输出能力,开发者无需单独开发复杂的语音合成模块,可快速集成到自身应用中,加速AI应用的开发与落地进程。

0
好文章,需要你的鼓励