蚂蚁集团使用国产芯片训练人工智能模型并削减成本

金融风控
Author Avatar
AI百晓生
2025-09-04
阅读7

据知情人士称,蚂蚁集团正依靠中国制造的半导体来训练人工智能模型,以降低成本,减少对受限美国技术的依赖。

这家阿里巴巴旗下的公司使用了国内供应商的芯片,包括那些与其母公司有关联的供应商,阿里巴巴和华为技术公司使用混合专家(MoE)方法训练大型语言模型。据消息人士称,该结果可与英伟达的H800芯片相媲美。尽管蚂蚁继续使用Nvidia芯片进行一些人工智能开发,但一位消息人士称,该公司正越来越多地转向AMD和中国芯片制造商的替代品来开发其最新型号。

这一发展标志着蚂蚁更深入地参与了中美科技公司之间日益激烈的人工智能竞赛,特别是在公司寻求具有成本效益的方法来训练模型的时候。国产硬件的试验反映了中国公司为解决出口限制所做的更广泛的努力,出口限制阻碍了对高端芯片的访问,如英伟达的H800,虽然不是最先进的,但仍然是中国组织可用的更强大的GPU之一。

image.png

蚂蚁发表了一篇描述其工作的研究论文,称其模型在一些测试中的表现优于Meta开发的模型。彭博新闻最初报道此事的谷歌尚未独立核实该公司的调查结果。如果模型表现如所声称的那样,Ant的努力可能代表着中国在试图降低运行人工智能应用程序的成本和减少对外国硬件的依赖方面向前迈进了一步。

MoE模型将任务划分为由独立组件处理的更小的数据集,并在人工智能研究人员和数据科学家中引起了关注。这项技术已经被谷歌和杭州的初创公司DeepSeek使用。MoE的概念类似于拥有一个专家团队,每个人处理一项任务的一部分,以使制作模型的过程更加有效。Ant拒绝就其硬件来源发表评论。

训练MoE模型依赖于高性能GPU,而对于较小的公司来说,购买或使用高性能GPU可能过于昂贵。Ant的研究专注于降低成本壁垒。这篇论文的标题有一个明确的目标:在“没有高级GPU”的情况下扩展模型。[我们的引号]

蚂蚁采取的方向和使用MoE来降低培训成本与Nvidia的方法形成了鲜明对比。首席执行官黄仁勋表示,对计算能力的需求将继续增长,即使推出更高效的模型,如DeepSeek的R1。他认为,公司将寻求更强大的芯片来推动收入增长,而不是以更便宜的替代品来削减成本。Nvidia的战略仍然专注于构建更多内核、晶体管和内存的GPU。

根据蚂蚁集团的论文,使用传统的高性能硬件,训练一万亿个令牌(人工智能模型用来学习的基本数据单位)需要大约635万元人民币(约合88万美元)。该公司的优化训练方法通过使用较低规格的芯片将成本降低到约510万元。

蚂蚁表示,它计划将这种方式生产的模型——Ling-Plus和Ling-Lite——应用于医疗保健和金融等工业人工智能用例。今年早些时候,该公司收购了中国在线医疗平台Haodf.com,以进一步实现蚂蚁在医疗保健领域部署人工智能解决方案的雄心。它还运营其他人工智能服务,包括一个名为“智小宝”的虚拟助理应用程序和一个名为“麻小财”的金融咨询平台。

“如果你找到一个攻击点来击败世界上最好的中国功夫大师,你仍然可以说你打败了他们,这就是为什么现实世界的应用是重要的,”北京人工智能公司胜尚科技的首席技术官Robin Yu说。

蚂蚁已经将其模型开源。Ling-Lite有168亿个参数——帮助确定模型如何运行的设置——而Ling-Plus有2900亿个。相比之下,据估计,闭源GPT-4.5有大约1.8万亿个参数麻省理工科技评论.

尽管取得了进展,但蚂蚁的论文指出,训练模型仍然具有挑战性。在模型训练期间对硬件或模型结构的小调整有时会导致不稳定的性能,包括错误率的峰值。

0
好文章,需要你的鼓励