GLM-Image开源和别的生图模型开源有什么不一样?

2026-01-14 17:46
51
今天,智谱AI和华为一起把GLM-Image开源,ModelScope第一时间转发,还顺手打了个“认知生成”标签。

同一条推文里,Stable Diffusion 3、DALL·E 3这些老面孔被反复拎出来——核心就一句:这模型开源到底哪儿不一样?

第一次把“自回归”塞进扩散解码器

据官方推特,这次叫“a breakthrough in Cognitive Generation”。
说人话,就是把“先想再画”和“边想边画”拼到同一个权重里:离散自回归负责token排队,扩散解码器负责像素补细节。以前开源圈要么纯扩散(Stable Diffusion系列),要么纯自回归(Parti、Emu),GLM-Image第一次把俩打包写进一个文件。
团队没公布参数量,也没甩FID,但强调“工业级”,意思是推理不用外挂超分或ControlNet,直接出图。提示词里写“竖版9:16,赛博霓虹”,它一次给你高清成品,不用后期抽卡放大。

国产芯片跑通SOTA,独一份

据The Pandaily推文,亮点是“first state-of-the-art multimodal model fully trained on Chinese chips”。在中美芯片管制的背景下,这句话比任何分数都吸睛。
官方没透露具体华为芯片型号,也没给训练集群规模,但“全国产链”本身就是最大卖点。对比主流开源模型靠A100/H100集群,GLM-Image把训练端到端搬上国产算力,意味着后续微调、私有化部署能绕过海外卡限制。
对政务、金融、医疗这些怕数据出镜的行业,这是别的仓库里找不到的选项。

Hugging Face一键调用,工业落地门槛直接砍半

据Z.ai组织推文,直接甩出Hugging Face Diffusers pipeline链接,开发者pip install后三行代码就能跑。
以前国产大模型开源常被吐槽“代码等身体”,GLM-Image却把PR提前做到了Transformers官方仓库。社区开发者AiBattle_在本月5日就捕捉到相关提交,可见团队早把接口对齐到国际习惯。
官方没公布许可证,也没说商业收不收费,但“一键diffusers”足够让中小企业先上车再补票。对比部分模型还得自己改CUDA kernel、调显存对齐,GLM-Image把“能直接用”写进README,这份友好度在开源圈里确实少见。

0
好文章,需要你的鼓励