1、Doubao-Seed-2.1系列双版本正式亮相
本次FORCE大会上,火山引擎同步推出Doubao-Seed-2.1-pro与Doubao-Seed-2.1-turbo两款新模型。
从能力维度来看,Coding表现已逼近Claude Opus 4.7水准,Agent智能体能力实现大幅跃升,多模态视觉理解方面在多数主流评测集中跻身TOP行列。定价方面,输入/输出分别为每百万token¥6/¥30,支持256k上下文窗口,目前已在火山引擎、Trae、豆包等平台完成部署,并兼容主流Agent框架。 基于该模型构建的豆包办公模式同步进入内测阶段,具备发票批量汇总、联网信息调研等实际办公任务处理能力。
2、豆包音频生成模型1.0发布,AI音频创作进入新阶段
火山引擎正式推出豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考素材双输入,端到端直出目标音频,无需繁琐的后期多轨混音。
单条Prompt即可编排多角色对白、情绪语气、背景音乐及环境氛围,在较长时长的生成过程中,各角色音色保持高度一致。模型还实现了音色与风格的解耦控制,以及"一声多角"能力,支持0样本多模态输入,无需额外训练。单次支持最长2分钟的音频创作,多次续写可维持音色统一。目前已开启火山方舟API邀测,个人用户享有30分钟创作额度,即将在剪映、即梦、番茄小说等产品中陆续上线。 3、Seedance 2.0原生4K功能登陆即梦,15秒消耗1200积分
Seedance 2.0的原生4K分辨率视频生成功能已在即梦平台正式上线。用户需选择Seedance VIP版本,生成一条15秒视频消耗1200积分,输出视频码率为50M,定位主要面向商业广告片及商业短剧制作团队。
4、Seedance 2.5预计7月初上线,单段原生支持30秒生成
在大会现场,火山引擎总裁谭待透露,豆包视频生成模型Seedance 2.5目前正处于全球企业内测阶段,预计7月初正式面向用户开放。新版本支持单段原生生成30秒视频,同时允许用户一次性导入多达50个全模态参考素材,大幅提升创作灵活度。
大会还预览了字节跳动全新AI版权商业化平台,周星驰成为首批签约合作对象。用户可在抖音、即梦、剪映等平台调用官方授权模板,对经典电影片段进行二次创作,相关模板在发布当日的创作量已突破十万次。
5、京东开源JoyAI-VL-Interaction,交互模式从"一问一答"升级为"边看边说"
京东近期开源了全球首个全栈交互模型JoyAI-VL-Interaction,并获得vLLM-Omni原生支持。该模型可持续观察视频流,主动识别关键事件并实时响应,同时支持将复杂任务委托至后台Agent异步处理。
在58组真人盲评中,对比豆包视频通话助手的综合胜率达77.6%,对比Gemini视频通话助手胜率达87.9%,在监控预警场景下更实现了100%胜率。模型支持摄像头、直播流等多种视频输入来源,以及语音交互、长期记忆与vLLM部署,适用于安防监控、老人看护、直播讲解等实时交互场景。 6、安卓版Firefox 152引入"网页摘要",摇一摇即可生成内容概要
Mozilla在安卓152版Firefox中上线"网页摘要"功能。用户只需摇动手机,或点击"摘要页面"按钮,即可调用云端AI对当前页面内容进行摘要提炼,底层模型为Mistral Small 3.1,内容上限为5000词,适配新闻、操作指南、产品评测、食谱、研究文章等多种内容类型。该功能默认开启,可在设置中自由切换,目前仅支持英文页面,正在向全球用户逐步推送。
7、Cline实测GLM-5.2 vs Claude Opus 4.8:修完Bug后谁更靠谱?
Cline团队以自家代码仓库中的真实Bug为测试对象,对GLM-5.2和Claude Opus 4.8进行了对比评测。
Claude Opus 4.8速度快3倍(1.6分钟vs 4.7分钟),token消耗减少一半(660K vs 1.1M),但价格贵一倍(0.41)——Bug虽然修复,但生产环境构建随即崩溃,遗留了类型错误。GLM-5.2多消耗67%的token,工具调用次数多出2.3倍(28次vs 12次),价格便宜一半,不仅修好了Bug,还主动清理了死代码,最终构建干净通过。 根本差异在于训练目标:GLM通过强化学习形成了更强的验证意识,愿意多花token去跑构建、检查类型、防止功能回归;而Opus更追求高效执行,却可能忽视隐藏风险。测试结论表明,排行榜仅能衡量"能不能修Bug",无法反映"修完之后会不会破坏生产环境"。GLM在长周期代码智能体任务上找到了属于开源模型的差异化优势。
8、GLM-5.2开源发布:744B参数,1M上下文,消费级硬件可运行
Z.ai正式发布GLM-5.2开源大模型,参数规模达744B(活跃参数40B),支持1M上下文窗口,综合性能与Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro处于同一梯队。
借助Unsloth动态量化技术,2-bit GGUF版本内存需求压缩至239GB(降幅84%),1-bit版本降至217GB(降幅86%),可在256GB统一内存的Mac设备或单张24GB显卡搭配256GB内存的配置下运行。模型提供非思考、高强度思考、最大思考三档模式可选。评测数据显示,动态1-bit量化版准确率约为76.2%,2-bit版约为82%。
9、百度开源Unlimited-OCR,单次推理即可解析多页PDF
百度在HuggingFace平台开源Unlimited-OCR模型,核心创新在于R-SWA机制——解码过程中KV Cache保持恒定,不随页数增加而膨胀。模型无需逐页处理,单次前向推理即可完成多页PDF的内容转录,32K上下文窗口可覆盖数十页文档,大幅提升长文档解析效率。
10、Aleph 2.0集成Figma Weave,关键帧驱动跨镜头视频编辑
Runway旗舰视频编辑模型Aleph 2.0现已在Figma Weave中正式上线。该模型基于关键帧逻辑工作:从视频中提取某一帧,对其进行风格重设计并标注时间戳后连接回Aleph 2.0节点,即可将该编辑效果自动传递至目标主体出现的每一帧,同时保持其他画面内容不受影响。支持最长30秒、1080p分辨率的片段处理,可跨多个镜头序列应用统一编辑,无需逐镜头手动操作。
11、Google DeepMind向A24投资7500万美元,联手开发影视AI工具
据《华尔街日报》报道,Google DeepMind宣布向独立电影制片公司A24注资7500万美元,双方将联合研发面向电影制作的AI工具。A24此前出品了《万事俱备》《后室》等多部知名影片。Google DeepMind CEO Demis Hassabis表示,希望通过与创作者的深度合作,打造真正服务于艺术表达的AI能力。
12、OpenAI推出Daybreak安全工具,漏洞发现与修复全面提速
OpenAI发布Daybreak系列安全工具,旨在帮助组织以规模化方式完成漏洞发现、验证与修复的完整闭环。过去安全运营高度依赖人力堆砌,Daybreak直接推出了集漏洞识别与修补于一体的产品组合,其中Codex Security如果能真正实现规模化落地,安全分析师的工作流或将迎来根本性重塑。