阿里巴巴开源语音交互大模型Fun-Audio-Chat

2025-12-25 16:04

130

阿里最近公布的语音交互大模型Fun-Audio-Chat，不是简单的“能聊天”，而是听得懂你的话、感知你的情绪、还能帮你真正干活的AI语音搭子。

继开源Fun-ASR-Nano和Fun-CosyVoice3后，通义百聆本周开源了Fun-Audio-Chat（8B）。在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多个权威榜单上，同尺寸模型排名第一，综合性能远超GLM4-Voice、Kimi-Audio、Baichuan-Omni......

技术表现：

端到端S2S架构：从语音输入直接生成语音输出，无需ASR+LLM+TTS多模块拼接，效率更高、延迟更低。

双分辨率设计：Shared LLM层以5Hz帧率高效处理，SRH以25Hz帧率生成高质量语音，GPU计算开销降低近50%。

百万小时多任务数据训练：覆盖音频理解、语音问答、情感识别、工具调用等真实场景，让模型更“接地气”。

高情商：像朋友一样的对话体验

你生气时，它会安慰你；你焦虑时，它会陪你深呼吸；你开心时，它会跟着你一起嗨。

哪怕你没直接说情绪，它也能从你的语气、语速、停顿里，猜出你的心情，然后给出恰到好处的回应。

易落地：它不仅能聊，还能“干实事”

Speech Function Call：你只需用自然语音下达指令，它就能自动调用函数，完成复杂任务。

阿里现已将8B模型权重、推理代码、Function Call接入示例全部开源，访问下列网址即可体验！

GitHub：https://github.com/FunAudioLLM/Fun-Audio-Chat

HuggingFace：https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B

ModelScope：https://modelscope.cn/FunAudioLLM/Fun-Audio-Chat-8B

Demo Page：https://funaudiollm.github.io/funaudiochat

好文章，需要你的鼓励