阿里云发布Qwen3.5-Omni全模态大模型

互联网 0 4

本条新闻为单纯事实消息的时事新闻，转载自三言科技，版权归源站所有，如有侵权，烦请联系我们。

3月30日，阿里云正式发布Qwen3.5-Omni全模态大模型，这是Qwen系列最新一代产品，支持文本、图片、音频及音视频理解。该模型采用Hybrid-Attention MoE架构，Thinker与Talker模块均基于此架构设计。系列包含Plus、Flash、Light三种尺寸的Instruct版本，其中Plus版本支持256K长上下文，可处理超过10小时音频输入及400秒720P音视频。

在训练数据方面，模型基于海量文本、视觉素材及超过1亿小时音视频数据进行原生多模态预训练。语言能力方面，Qwen3.5-Omni支持113种语种和方言的语音识别，以及36种语种和方言的语音生成，相比前代Qwen3-Omni有明显提升。

在离线能力测试中，Qwen3.5-Omni-Plus在音频及音视频理解、推理和交互任务上取得215项子任务SOTA成绩，涵盖3个音视频Benchmark、5个音频Benchmark、8个ASR Benchmark、156个S2TT任务和43个ASR任务。通用音频理解、推理、识别、翻译及对话能力全面超越Gemini-3.1 Pro，音视频理解能力达到同尺寸Qwen3.5模型水平。

该模型具备音视频caption能力，可生成可控、详细、结构化的音视频描述，支持自动切片、时间戳打标及人物与音频关系描述。通过原生多模态Scaling，模型还涌现出根据音视频指令直接进行coding的能力，称为Audio-Visual Vibe Coding。

实时交互方面，模型支持五项核心功能。一是语义打断，基于Omni开发自动识别turn-talking意图，避免无效背景音干扰。二是原生支持WebSearch和复杂FunctionCall调用，可自主判断是否启用搜索。三是端到端语音控制和对话，支持对声音大小、语速、情绪等自由控制。四是音色克隆，用户可上传音色定制AI Assistant声音。五是ARIA技术，通过自适应速率交错对齐解决流式语音交互中因文本与语音Token编码效率差异导致的漏读、误读问题。

模型延续Thinker-Talker架构，Thinker通过Vision Encoder和Aut接受视觉和音频信号，Talker负责接收多模态输入及文本输出进行contextual语音生成。不同于前代双轨Talker输入，新版本采用ARIA动态对齐文本与语音单元。

用户可通过Qwen Chat、HuggingFace及ModelScope体验离线及实时Demo，也可通过阿里云百炼调用API。模型提供中英主音色5个、中英场景音色19个、中文方言特色音色8个、多语言音色23个，共计55个发音人选项。

点赞 0 收藏(0)

0个评论

消灭零评论