苹果开源STARFlow:高分辨率AI模型

2025-12-03 12:21
143

今年9月,苹果公司机器学习研究团队发布“STARFlow”AI图像生成系统,该产品具备深浅融合架构与潜在空间运算技术优势,主要应用于高分辨率图像生成领域。

最近,苹果公司已经把STARFlow模型进行开源,这将进一步推动苹果生态在生成式AI领域的竞争力。

image.png

STARFlow模型采用了和当前主流模型(如Stable Difusion)不同的技术路线,但最终生成图片的效果一样好,甚至在某些方面更高效。

这个模型是一种基于normalizing fiows(一种数学方法,能把复杂数据转化为简单噪音,反之生成数据)的生成模型。核心是TARFlow(TransformerAutoregressive Flow),结合Transformer(像ChatGPT用的那种网络)和自回归流。

STARFlow模型在以下几方面有着重大突破:

图像生成:

使用2.0-5.0之间的指导评分标准,以实现质量和多样性的平衡。

针对您的使用场景尝试不同的宽高比

启用雅可比迭代(--jacobi 1)以加快采样速度

使用更高分辨率的模型以获得更详细的输出

默认脚本使用优化设置--jacobi_th 0.001:--jacobi_block_size 16

视频生成:

先从较短的序列(81帧)开始,然后逐渐增加长度(161帧、241帧、481帧以上)。

使用输入图像(--input_image)进行更可控的生成

根据内容类型调整帧率设置(8-24帧/秒)

设计提示语时要考虑时间一致性。

默认脚本使用--jacobi_block_size 64.

更长的视频:用于--target_length生成超出训练时长的视频(需要--jacobi 1)

帧参考:81帧≈5秒,161帧≈10秒,241帧≈15秒,481帧≈30秒(16帧/秒)

训练:

使用FSDP进行高效的大型模型训练

从小批量开始,逐步扩大规模

监测损失曲线并相应地调整学习率。

使用梯度检查点来减少内存占用

测试脚本包含--dry_run 1验证部分

0
好文章,需要你的鼓励