公司情报专家《财经涂鸦》获悉,9月9日,字节跳动Seed公众号正式宣布,发布新一代图像创作模型Seedream 4.0,采用同一套构架实现文生图与通用编辑能力,融合常识和推理能力,在多模态效果、速度和可用性上较前代模型均实现显著突破。
通过多模态玩法拓展、风格化美感提升、逻辑理解力增强、自适应与4K生成、推理速度跃升等关键能力提升,Seedream 4.0于综合评测中取得领先。目前,Seedream 4.0已正式上线,用户可通过即梦、豆包、火山方舟等平台直接体验。
据字节跳动Seed团队自我简介,团队成立于2023年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。
该公众号于2024年4月29日以“豆包大模型”名称注册,2025年4月26日更名为“字节跳动Seed”。
「更是一个完整的多模态创意引擎」
团队强调,Seedream 4.0强化了理解能力且运用多维数据联合训练,令图像生成不再局限于单点能力,而是已具备通用多模态创意引擎的雏形。同时,在专业化场景的创作中,Seedream 4.0对于高知识密度内容的生成处理已达初阶水平。
整体来看,Seedream 4.0不仅是一个图像生成模型,更是一个完整的多模态创意引擎。
据悉,其最新能力目前可支持八种基础功能,包括精准编辑、灵活参考、视觉信号可控生成、上下文推理生成、多图参考生成、多图输出、高级文字渲染与排版、自适应比例与4K生成等。
例如,在上下文推理生成功能中,Seedream 4.0不仅可以理解物理与时间约束、三维空间等复杂语境,还能在解谜、填字、续写漫画等任务中保持风格一致与细节精致,推理与创意生成能力突出;而其在图像编辑方面的能力,对广告设计、电商修图、影视后期等场景尤为重要,大幅减少了人工二次修正的成本。
此外,Seedream 4.0在文生图和单图编辑方面亦有大幅提升。文生图方面,其特别增强了密集文字渲染和复杂语义理解能力,较其他同类模型在画面质感、光影自然度和色彩协调性上优势明显;单图编辑方面,其在指令遵循、参考一致性、结构完整性和文字编辑方面实现了平衡,既能灵活完成风格转换、视角变换等复杂任务,又能保持画面结构稳定。
在多模态扩展方面,Seedream 4.0采用同一套构架实现文生图与编辑能力的统一,并在联合训练中实现相互的能力增强。
例如,团队将前续版本的 Seedream文生图与SeedEdit 图像编辑能力整合到同一套架构中,保持高质量的图像生成与高一致性的特征参考,实现了生成和编辑统一;同时,团队构建了大规模可扩展的多模态数据处理链路,能够快速高效构建大规模、高质量的编辑数据对。
软硬件串联协同,实现高质量与高效生成
同时,在Seedream 4.0中,团队还在推理环节进行了多层次优化,对算法和硬件进行深入改造。
通过对抗蒸馏、分布匹配、量化与稀疏化、推测解码一整套加速方案,Seedream 4.0 在实际应用中既能生成高质量的4K图像,也能实现最快秒级推理生成2K图片,实现了高质量和高效生成的统一。
今年8月份,字节跳动Seed团队发布并开源了全模态 PyTorch 原生训练框架——VeOmni,采用以模型为中心的分布式训练方案,可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天。
7月份,Seed团队还正式发布端到端同声传译模型Seed LiveInterpret 2.0,据称是“首个延迟&准确率接近人类水平的产品级中英语音同传系统”。
该基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,实现极低的延迟的“边听边说”。其在多人会议等复杂场景中英双向翻译准确率超70%,单人演讲翻译准确率超80%,接近真人专业同传水平。
同时,翻译延迟可低至2-3 秒,较传统机器同传系统降低超60%,实现了真正的“边听边说”翻译。
团队彼时曾透露,Ola Friend耳机将于8月底接入Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。
作者:苏打
编辑:tuya
出品:财经涂鸦(ID:caijingtuya)
本文作者可以追加内容哦 !
本文来源:财经涂鸦
来源:财经涂鸦
重要提示:本文仅代表作者个人观点,并不代表乐居财经立场。 本文著作权,归乐居财经所有。未经允许,任何单位或个人不得在任何公开传播平台上使用本文内容;经允许进行转载或引用时,请注明来源。联系请发邮件至ljcj@leju.com,或点击【联系客服】