阶跃星辰新图像编辑模型来了!2分钱一张、0.7秒

互联网资讯
智东西 互联网资讯 发布于 昨天 22:15
本条新闻为单纯事实消息的时事新闻,转载自智东西,版权归源站所有,如有侵权,烦请联系


智东西
作者 高远瞩
编辑 程茜

智东西4月29日消息,今天,阶跃星辰正式发布新一代图像编辑生成模型Step Image Edit 2

该模型参数量仅3.5B,在轻量级图像编辑评测基准KRIS-Bench中综合排名第一,支持文生图、中英文渲染、局部编辑、视觉推理、主体一致性及风格迁移,可广泛用于IP创作、海报设计、漫画生成、人像美颜、旅游修图等场景。

API定价0.02元/张,公测期(4月28日至5月5日)限免体验

在官方放出的速度对比视频中,Step Image Edit 2完成一次文生图片仅需0.7秒,而国内闭源SOTA模型耗时7秒,开源20B级模型耗时12秒,开源同量级4B模型则耗时0.6秒。


▲各模型文生图速度对比(来源:阶跃星辰官方视频)

智东西第一时间上手实测。总体来看,Step Image Edit 2在风格迁移的品牌VI排版上有惊喜,但在中文汉字渲染、空间方位理解、复杂指令执行稳定性上存在明显不足。

官方体验入口:https://platform.stepfun.com/console-tools

一、架构数据双突破:小参数如何挑战大模型?

Step Image Edit 2主打“小身材、大能力、快响应”,参数量虽小,Step Image Edit 2在技术层面下了功夫。

据阶跃星辰介绍,核心支撑来自两项创新:

一是多专家驱动的自演化学习。思路可概括为“分头探索、集中聚合”。先从基座模型衍生多个细分任务专家分支进行差异化训练,再通过迭代式自蒸馏将知识聚合回基座,在不增加参数量的前提下逼近大模型的表现水平。

二是分布匹配强化学习(DARL)。传统强化学习依赖稀疏奖励信号,模型容易跑偏。阶跃的做法是让模型当前的输出分布与参考分布对齐,以分布差距作为稠密奖励信号,使训练更平稳、泛化能力更强。

数据层面,Step Image Edit 2在图像编辑能力上投入了超五千万规模的专项训练数据,融合真实场景挖掘、定向合成与高质量开源数据三路来源,并针对文字编辑这一行业难点,自研排版系统生成约两千万条专项数据。

数据质控上构建了“智能体自动清洗—大模型全局评估—人工精细筛选”三级体系。

二、中文海报极限测试:4个文字区域同时排版,模型没完全接住

我们通过阶跃星辰开放平台在线体验,首先复现了官方演示中最具挑战性的中文海报排版任务。官方视频中展示了两个复杂的中文海报案例,效果相当惊艳。



▲Step Image Edit 2的中文海报极限测试(来源:阶跃星辰官方视频)

但实际测试下来,情况要复杂得多。

实测案例:陶罐变手袋 + 四行文字混排

提示词:

一张黑白线稿风格但带高光质感的海报。画面左侧摆放三个传统陶罐,其中中间的那个陶罐被替换成一个奢侈品牌手袋(造型像陶罐但表面有皮革纹理和高光)。所有物品使用黑色雕刻线条表现,但在手袋和蔬菜部分加入细腻的高光。构图:顶部居中粗体大写标题「LUXURY DAILY」;底部居中副标题「CRAFTING VALUE FROM NOTHING」;右侧竖排文字「日常即奢侈」;右下角有一个超大汉字「物」。整体要求:传统与奢侈的视觉冲突,线条硬朗,高光精致。

实测结果:

我们针对这个提示词连续生成了三次,耗时分别为11.33秒、7.98秒和21.31秒,三次生成暴露了模型三个维度的反复偏差:

偏差一:方位理解错误(三次全错)
提示词明确要求将“中间的那个陶罐”替换为手袋,但三次生成中,模型每次都将最右边的陶罐变成了手袋。左、中、右的空间方位关系,模型完全没有理解。


▲Step Image Edit 2第一次执行中文海报极限测试

偏差二:“华”字错笔(三次全错)
三次生成的图片中,第二个“奢华”里的“华”字,下方都多出了一横,说明模型存在汉字生成缺陷。

偏差三:蔬菜缺失(仅第一次)
第一次生成的画面中完全没有出现提示词要求的“蔬菜”,后两次生成则成功补上了蔬菜。说明模型在执行多要素的复杂指令时,生成的结果并不稳定


▲Step Image Edit 2第二、三次执行中文海报极限测试

小结:

后两次生成虽然补齐了蔬菜,文字布局也基本完整,但方位错误和“华”字错笔在所有三次结果中持续出现,未得到修正。

综合来看,官方视频中展示的中文海报极限测试效果,在实际测试中打了折扣。模型在空间定位和汉字生成时,能力仍不稳定。

三、跨物种身份迁移?“猫变人”五次才成真

官方演示中有一个很有趣的任务:上传一只猫的照片,并输入“这是我的猫,年龄3岁,13斤,女。请将以上信息,按照将猫咪替换成对应的人类女生形象。”



▲Step Image Edit 2执行“猫变人”任务(来源:阶跃星辰官方视频)

我们用不同的猫图实测了这个任务,提示词与官方一样,却连续生成了五次才成功

第一次生成:画面中只有原猫,完全没有人的出现,模型忽略了替换的指令。


第二次生成:模型直接将人的脸“安”在了猫的身体上,输出了一个猫身人面的怪异形象。


第三次生成:输出了一张人抱着猫的合影,人倒是正常了,但怀里抱的正是原图中的那只猫,并没有实现“猫咪替换成人类女生”。


第四次生成:依然是人与猫合影,但这次猫的品种与原图不一致,仍然没有完成替换。


第五次生成:终于成功,模型输出了一张完整的人类女生形象,人物姿态自然,无猫元素残留。


小结:
五次尝试才成功一次,成功率20%。前四次失败分别暴露了不同层面的理解偏差:完全忽略指令、把“替换”理解成“融合”(人面猫身)、把“替换”理解成“抱着原猫”、把“替换”理解成“换一只猫抱着”。

这说明模型在执行需要多层语义理解的复杂指令时,稳定性远远不够,往往需要反复尝试才能出现理想效果。

四、10种风格一键切换+品牌VI设计:汉字再出错?

我们固定一张风景照片,分别输入“转成水墨风格”“转成赛博朋克风格”“转成油画风格”


▲Step Image Edit 2执行风格迁移(来源:阶跃星辰官方视频)

平均生成耗时约12秒,高于官方宣称的0.5-2秒范围,推测与1024分辨率及复杂场景有关。


▲Step Image Edit 2执行三种风格迁移

不过模型在三者之间切换流畅,水墨风格的留白与晕染、赛博朋克的霓虹色调、油画的笔触质感均较为明显,主体内容保持一致。

同时,我们尝试了品牌VI设计任务。


▲Step Image Edit 2进行品牌VI设计(来源:阶跃星辰官方视频)

提示词为:为品牌“太阳咖啡”设计一套品牌VI,包括标志、名片、包装袋,风格为极简现代。

模型生成了一张包含包装袋(袋身印有品牌标志)和名片的多元素画面,但未出现官方视频示例中的咖啡杯,并且名片上本应是“太阳”二字被生成了“大阳”,又是汉字错误。整体风格为极简现代,符合提示词的基本要求,生成耗时6.59秒。


▲Step Image Edit 2执行品牌VI设计

结语:技术架构有亮点,但实际表现稍逊

从技术层面看,Step Image Edit 2在多专家自演化学习和分布匹配强化学习上的探索值得关注。这两项创新理论上确实可能实现“轻量级模型逼近大模型效果”,思路本身有可取之处。超五千万专项训练数据、约两千万条文字编辑数据的投入,也体现了阶跃对这项任务的重视。

轻量高效是行业发展的正确方向,但Step Image Edit 2的技术成熟度仍需打磨。期待其后续版本能在汉字书写能力和复杂指令理解的稳定性上补齐短板,真正兑现“小身材、大能力、快响应”的承诺。

点赞 0 收藏(0)  分享
0个评论
  • 消灭零评论