阿里开源Qwen-Image-Layered图像模型
2025-12-23 10:23
112
12月22日消息阿里宣布开源全新图像生成模型Qwen-Image-Layered,首次在模型内实现PS级的图层理解与图像生成。新模型采用自研创新架构,可将图片“拆解”成多个图层,可类比为使用Photoshop分层作图修图,号称能够实现几乎“零漂移”的AI图像精准编辑,彻底解决AI生图的一致性难题,加速大模型在专业设计领域的现实落地。

架构创新的技术原理
分层解耦的核心机制
Qwen-Image-Layered可以将图像分解为多个RGBA图层,每个图层可以独立编辑而不影响其他内容,支持重新着色、替换、删除、调整大小和移动等操作。
这种分层解耦机制,本质上是将复杂的图像编辑任务分解为多个相对简单的子任务,通过模块化处理提升整体效率和精确度。
传统视觉大模型普遍采用端到端的生成方式,难以实现细粒度控制,而Qwen-Image-Layered通过分层架构,成功突破了这一技术瓶颈。
自研创新架构的突破
阿里开源全新图像模型Qwen-Image-Layered,新模型采用自研创新架构,这一架构设计充分考虑了图像编辑的实际需求。
模型在训练过程中学习了大量分层图像数据,掌握了不同图层之间的语义关联和空间关系。通过深度学习的特征提取和模式识别能力,模型能够智能地识别图像中的不同对象和元素,并将其分配到相应的图层中。
这种智能分层能力,是传统图像处理软件无法比拟的技术优势。
多模态融合的技术优势
Qwen-Image-Layered作为通义千问系列的重要成员,继承了阿里在多模态学习方面的深厚积累。
模型不仅能够理解图像的视觉内容,还能结合文本描述、语义信息等多维度数据,实现更加精准的分层和编辑。
这种多模态融合能力,使得模型在处理复杂场景时表现出色,能够准确识别和分离相互重叠、遮挡的对象,为用户提供更加自然和流畅的编辑体验。
0
好文章,需要你的鼓励
