苹果开源STARFlow:高分辨率AI模型
今年9月,苹果公司机器学习研究团队发布“STARFlow”AI图像生成系统,该产品具备深浅融合架构与潜在空间运算技术优势,主要应用于高分辨率图像生成领域。
最近,苹果公司已经把STARFlow模型进行开源,这将进一步推动苹果生态在生成式AI领域的竞争力。

STARFlow模型采用了和当前主流模型(如Stable Difusion)不同的技术路线,但最终生成图片的效果一样好,甚至在某些方面更高效。
这个模型是一种基于normalizing fiows(一种数学方法,能把复杂数据转化为简单噪音,反之生成数据)的生成模型。核心是TARFlow(TransformerAutoregressive Flow),结合Transformer(像ChatGPT用的那种网络)和自回归流。
STARFlow模型在以下几方面有着重大突破:
图像生成:
使用2.0-5.0之间的指导评分标准,以实现质量和多样性的平衡。
针对您的使用场景尝试不同的宽高比
启用雅可比迭代(--jacobi 1)以加快采样速度
使用更高分辨率的模型以获得更详细的输出
默认脚本使用优化设置--jacobi_th 0.001:--jacobi_block_size 16
视频生成:
先从较短的序列(81帧)开始,然后逐渐增加长度(161帧、241帧、481帧以上)。
使用输入图像(--input_image)进行更可控的生成
根据内容类型调整帧率设置(8-24帧/秒)
设计提示语时要考虑时间一致性。
默认脚本使用--jacobi_block_size 64.
更长的视频:用于--target_length生成超出训练时长的视频(需要--jacobi 1)
帧参考:81帧≈5秒,161帧≈10秒,241帧≈15秒,481帧≈30秒(16帧/秒)
训练:
使用FSDP进行高效的大型模型训练
从小批量开始,逐步扩大规模
监测损失曲线并相应地调整学习率。
使用梯度检查点来减少内存占用
测试脚本包含--dry_run 1验证部分
