京东开源JoyAI-Echo长视频生成框架

互联网 0 5

本条新闻为单纯事实消息的时事新闻，转载自三言科技，版权归源站所有，如有侵权，烦请联系我们。

据京东黑板报，6月3日，京东推出JoyAI-Echo长音视频生成框架，直接解决行业长期存在的“长视频生成三大难题”——角色易崩、声音乱变、生成缓慢。该框架实现了“对话式编辑”功能，无需为改一个镜头重跑整条视频。

JoyAI-Echo的发布，标志着京东在长视频生成领域进入全球第一梯队。

该框架包含四项核心技术创新。一是跨模态音视频记忆库，框架内置专门记忆库，能在多镜头生成过程中持续保存并调用角色外观特征和说话人音色信息。实测结果显示，长达5分钟的视频里，角色身份、视觉形象和声音音色都能保持高度一致。

二是记忆驱动后训练，团队创新性提出记忆驱动后训练流程，结合SFT、跨模态RLHF和Distribution Matching Distillation（DMD）技术，仅DMD一项技术就带来约7.5倍的速度提升，让长视频生成从“等半天”变成“秒出片”。

三是Director Agent智能导演助理，用户用自然语言说需求，系统会自动拆分成剧本、角色、场景和镜头。哪里不满意，直接用对话方式告诉它修改，只重新生成有问题的局部镜头，整条视频不用重来。

四是轻量化实时超分，配套专门实时超分模块，支持736×1280到1152×1920、以及736×1280到1472×2560两档分辨率提升，通过单步超分就能生成高分辨率视频和精细化音频。

为客观评估性能，研究团队基于100个故事、3000个镜头构建了专门的长音视频生成评测集。结果显示，JoyAI-Echo在跨镜头一致性、视频质量、文本一致性和语音内容准确率等所有核心指标上都取得领先表现，其中语音内容准确率高达0.8646。在用户偏好调研中，81.7%的用户认为其音频质量偏好，80.6%认为提示词遵循偏好，63.6%认为视觉美学偏好，59.4%认为IP一致性偏好。

JoyAI-Echo的代码与权重已全部开源，目前项目页和GitHub代码仓库已正式上线。

点赞 0 收藏(0)

0个评论

消灭零评论