阶跃星辰新图像编辑模型来了！2分钱一张、0.7秒

互联网 0 6

智东西 互联网资讯 发布于昨天 22:15

本条新闻为单纯事实消息的时事新闻，转载自智东西，版权归源站所有，如有侵权，烦请联系。

智东西
作者高远瞩
编辑程茜

智东西4月29日消息，今天，阶跃星辰正式发布新一代图像编辑生成模型Step Image Edit 2。

该模型参数量仅3.5B，在轻量级图像编辑评测基准KRIS-Bench中综合排名第一，支持文生图、中英文渲染、局部编辑、视觉推理、主体一致性及风格迁移，可广泛用于IP创作、海报设计、漫画生成、人像美颜、旅游修图等场景。

API定价0.02元/张，公测期（4月28日至5月5日）限免体验。

在官方放出的速度对比视频中，Step Image Edit 2完成一次文生图片仅需0.7秒，而国内闭源SOTA模型耗时7秒，开源20B级模型耗时12秒，开源同量级4B模型则耗时0.6秒。

▲各模型文生图速度对比（来源：阶跃星辰官方视频）

智东西第一时间上手实测。总体来看，Step Image Edit 2在风格迁移的品牌VI排版上有惊喜，但在中文汉字渲染、空间方位理解、复杂指令执行稳定性上存在明显不足。

官方体验入口：https://platform.stepfun.com/console-tools

一、架构数据双突破：小参数如何挑战大模型？

Step Image Edit 2主打“小身材、大能力、快响应”，参数量虽小，Step Image Edit 2在技术层面下了功夫。

据阶跃星辰介绍，核心支撑来自两项创新：

一是多专家驱动的自演化学习。思路可概括为“分头探索、集中聚合”。先从基座模型衍生多个细分任务专家分支进行差异化训练，再通过迭代式自蒸馏将知识聚合回基座，在不增加参数量的前提下逼近大模型的表现水平。

二是分布匹配强化学习（DARL）。传统强化学习依赖稀疏奖励信号，模型容易跑偏。阶跃的做法是让模型当前的输出分布与参考分布对齐，以分布差距作为稠密奖励信号，使训练更平稳、泛化能力更强。

数据层面，Step Image Edit 2在图像编辑能力上投入了超五千万规模的专项训练数据，融合真实场景挖掘、定向合成与高质量开源数据三路来源，并针对文字编辑这一行业难点，自研排版系统生成约两千万条专项数据。

数据质控上构建了“智能体自动清洗—大模型全局评估—人工精细筛选”三级体系。

二、中文海报极限测试：4个文字区域同时排版，模型没完全接住

我们通过阶跃星辰开放平台在线体验，首先复现了官方演示中最具挑战性的中文海报排版任务。官方视频中展示了两个复杂的中文海报案例，效果相当惊艳。

▲Step Image Edit 2的中文海报极限测试（来源：阶跃星辰官方视频）

但实际测试下来，情况要复杂得多。

实测案例：陶罐变手袋 + 四行文字混排

提示词：

一张黑白线稿风格但带高光质感的海报。画面左侧摆放三个传统陶罐，其中中间的那个陶罐被替换成一个奢侈品牌手袋（造型像陶罐但表面有皮革纹理和高光）。所有物品使用黑色雕刻线条表现，但在手袋和蔬菜部分加入细腻的高光。构图：顶部居中粗体大写标题「LUXURY DAILY」；底部居中副标题「CRAFTING VALUE FROM NOTHING」；右侧竖排文字「日常即奢侈」；右下角有一个超大汉字「物」。整体要求：传统与奢侈的视觉冲突，线条硬朗，高光精致。

实测结果：

我们针对这个提示词连续生成了三次，耗时分别为11.33秒、7.98秒和21.31秒，三次生成暴露了模型三个维度的反复偏差：

偏差一：方位理解错误（三次全错）
提示词明确要求将“中间的那个陶罐”替换为手袋，但三次生成中，模型每次都将最右边的陶罐变成了手袋。左、中、右的空间方位关系，模型完全没有理解。