多模态大模型这条赛道，阿里云开始拉速度了

互联网 0 4

本条新闻为单纯事实消息的时事新闻，转载自钛媒体APP，版权归源站所有，如有侵权，烦请联系我们。

万相2.6系列模型的发布，再度印证了一件事，只要阿里云提提速，全球大模型产业就会上一个强度。

阿里云将大模型战火烧到了多模态领域，这在行业预期之内。今年以来，多模态模型的调用量大规模增长，因为随着大模型的加速落地，行业很快发现，文本能解决的问题有限，现实世界天然就是多模态的输入输出形态，多模态模型预计成为未来一段时间产业竞争的主线。

行业预期之外的是，阿里云在多模态领域的追赶和落地效率。以往阿里云并不以多模态模型见长，不过就像谷歌联合创始人谢尔盖・布林所言，真正解决问题的是算法改进，过去十年里，算法层面的进步，其实跑得比算力提升还快。

阿里目前没有披露整体算法的技术细节，有据可查的是，通义万相在模型结构上集成了多项创新技术，可对输入参考视频进行多模态联合建模与学习，参考具有时序信息的主体情绪、姿态和多角度全面视觉特征，同时提取音色、语速等声学特征，在生成阶段作为参考条件控制，实现从画面到声音的全感官全维度一致性保持与迁移。

在AI军备竞赛中，新模型往往只是阿里云的冲锋号，更值得关注的，是阿里云三位一体的“打击”能力：首先拿出世界第一梯队级别的闭源模型，掌握技术和商业的主动权，然后做该领域的全开源，应用门槛大幅降低，应用生态加速繁荣，最后是让AI落地到产业，阿里云提供体系化的工程能力。

大模型，阿里云为何这么“卷”

在所有关于AI的叙事逻辑中，模型都是原点，但是，对于要不要自研模型，纵使头部厂商也有分歧。

例如早期OpenAI和微软的合作，凭借对OpenAI的前瞻性投资，微软拿到了GPT大模型的优先使用权，但OpenAI并不满足于成为微软体系内的模型供应商，双方早期紧密的绑定关系早已出现裂痕。

AWS信奉模型自由，“没有一个大模型能满足所有客户”，于是AWS引入各大模型托管到自家平台，然而，顶级模型具有稀缺性，要么在竞争对手那，要么模型企业倾向于自己提供服务，用户无法获得最好的模型体验。

和微软、AWS不同，阿里云坚定地走上了另一条路，坚定自研大模型，寻根究底的话，在于不同厂商对模型的认知不同。如果把模型视作最根本的核心竞争力，那么就必然要掌握在自己手中，反之则可以通过合作等方式来补足。

阿里云的观点是，未来模型将运行在所有计算设备中，并具备可持久记忆，端云联动的运行状态，甚至可以随时更新参数，自我迭代，类似今天的OS运行在各种环境之中。

对于一个操作系统级别的新技术，阿里巴巴理所当然地选择举全公司之力投入。随着时间的推移，微软和亚马逊也纷纷加大自研模型的投入，不再过度依赖其他模型厂商的供应，这也从侧面印证了阿里云早期战略预判的正确性。

回到模型本身，自研领先的闭源模型，对云厂商而言不仅是技术的象征，更是一种战略级资源。通义千问旗舰模型Qwen3-Max性能超过GPT5、Claude Opus 4等，跻身全球前三，顶尖闭源模型吸引了大量开发者、企业和合作伙伴在其上构建应用，形成高粘性网络效应，阿里云得以在产业链上占据主动权。

再以万相2.6系列为例，国内用户也能使用到Sora2级别的能力，其不仅是全球功能最全的视频生成模型，该系列模型面向专业影视制作和图像创作场景进行了全面升级，也是国内首个支持角色扮演功能的视频模型，同时支持音画同步、多镜头生成及声音驱动等功能。

模型领域有突出的马太效应，一步领先，步步领先。万相模型家族已支持文生图、图像编辑、文生视频、图生视频、人声生视频、动作生成、角色扮演及通用视频编辑等10多种视觉创作能力，已广泛应用于AI漫剧、广告设计和短视频创作等领域。

自研领先闭源模型，是云厂商从技术能力到商业生态、从竞争壁垒到战略主动权的核心引擎，也是未来竞争格局中最关键的筹码。

阿里开源的意义，还是被低估了

中国厂商素来在开源技术圈声量不大，拿得多贡献得少，到了大模型时代，阿里云成为国内最早开源自研大模型的“大厂”，也是全球唯一一家积极研发先进AI模型并且全方位开源的云计算厂商，业界率先实现“全尺寸、全模态”的全面开源。

阿里内部达成共识，通义千问选择开放路线，是为了打造AI时代的Android。在LLM时代，开源模型创造的价值和能渗透的场景，会远远大于闭源模型。

海外企业反而开始秘而不宣，不论是OpenAI、Anthropic这些大模型厂商，还是谷歌等巨头，甚至一开始走开源路线的Meta，都走上了闭源路线。

从2023年至今，阿里通义团队已开源300多款模型，包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列。

「全模态」指的是开源文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等；「全尺寸」指的是开源模型覆盖0.5B、0.6B、1.5B、1.7B、3B、4B、7B、8B、14B、30B、32B、72B、110B、235B、480B等参数，同时Qwen支持中、英、法、德、西、俄、日、韩、越、阿拉伯等119种语言及方言。

阿里提供了各种场景下的更好模型，这是由市场决定的，客户需求分散，行业场景千差万别，预算、时延、部署要求完全不同，某种程度上和AWS“没有一个大模型能满足所有客户”的理念类似，但是阿里云优先由自己来提供大语言模型、多模态模型，以及不同尺寸、不同成本、不同部署形态的模型组合。

对于全球开发者而言，Qwen开源模型已经成为依赖，美国AI专家Nathan Lambert发出“硅谷建立在Qwen之上”的惊叹，谷歌前CEO施密特甚至表示担心这将削弱美国技术领导力，因为大多数国家和公司会选择开源的中国开源大模型。

截至目前，通义千问Qwen衍生模型数量已突破18万，远超Meta Llama系列模型；通义千问Qwen在全球下载量超7亿，据彭博统计，截至2025年10月，千问Qwen下载量也已超越Llama模型，通义成为事实意义上的全球第一AI开源模型。

开源对于阿里云也大有裨益，作为AI和云计算市场的追赶者，开源模型让更多企业和开发者参与，也让阿里云成为底层规范和实践的参考，吸引更多的用户使用阿里云生态，这是一个双赢局面。

在一个高度依赖算力、数据和资本的赛道里，大模型天然有走向“寡头化”的风险。少数公司掌握最强模型、最先进算力，其余玩家只能围绕API做应用，行业创新的天花板被提前锁死。

阿里的开源，在某种程度上拉低了这条门槛。它让更多开发者、中小企业和行业玩家，有机会直接参与到底层模型与工程体系中，而不是永远停留在调用者的位置。

体系化AI工程，大模型深入产业场景

过去一年，阿里云AI算力增长超5倍，AI存力增长4倍多，头部车企正在基于Qwen-VL定制了自己的VLA和世界模型，数十家具身智能企业在和通义进行合作，甚至连竞争对手在进行具身领域的技术探索中，也使用了Qwen系列模型。

这说明，阿里云的能力边界早已超出模型之外，有了顶级闭源模型作标杆，开源模型实现能力下沉和生态繁荣，阿里云让前沿模型转化为产业价值的关键，就在于体系化的AI服务。

过去两年中，产业链厂商都在加速推出各类工具和服务，以支持生成式AI的完整工程化流水线，不再局限于对生成式AI模型进行简单的提示（prompt）调用，而是蔓延到数据准备、模型训练/精调、模型管理、评估、观测等模型全生命周期工具。

以时下火热的自动驾驶和具身智能为例，需要多模态模型端到端的服务。其中，汽车自动驾驶需处理采集车与量产车回传的海量图像数据，传统CV小模型的语义理解弱、泛化差、准确率低。

采用通义千问多模态大模型Qwen3-VL后，可一次性为图像打上数百个语义标签，泛化能力与检索准确率较传统方案提升50%以上，车企既可直接调用其云端服务处理难例场景，又可依托其开源开放特性自主微调模型，大幅降低标注与迭代成本。该方案已落地比亚迪、卓驭、元戎等厂商。

在具身智能研发中，Qwen-VL在云端数据标注阶段，可显著提升标注效率与数据质量，在端侧，面向Vision-Language-Action（VLA）架构的具身智能企业基于Qwen-VL开展后训练，加速了具身智能系统的工程化落地与高效迭代。

工程化能力的优势就在于它将模型的能力转化为可复用、可扩展、可落地的业务工具，极大降低了标注成本、训练成本和迭代时间，同时保证了系统的稳定性与可控性。

智能硬件也是多模态模型一个充满想象空间的市场，雷鸟V3 AI眼镜融合Qwen-VL、Qwen-Audio，AI识别准确率达98%；创维电视和闺蜜机依托Qwen-VL与CosyVoice，实现99%意图识别精度的深度内容搜索；听力熊V8基于Qwen-Omni和Qwen-VL能力，通过拍照触发AI讲解，交互频次翻倍。多模态能力正让AI深度融入物理世界，重塑终端体验。

此外，在金融场景非结构化数据的处理阶段，Qwen-VL可实现材料解析效率提升70%以上，定损、投研等流程从小时级压缩至分钟级。

结合如上实践来看，体系化AI工程的核心，就是把大模型的能力从实验室搬到产业场景，其中涉及到复杂的场景拆解和能力重组，它不仅包括模型本身的训练和优化，还涵盖数据采集与标注、算力调度、分布式训练、推理加速、微调与定制化部署等全链路能力，这也是阿里云作为云厂商的先天优势。

三位一体的全栈AI体系，使得阿里云有能力完成AI价值传导的闭环，真正把大模型从实验室推向现实世界，把能力优势转化为产业竞争力，也让整个行业的格局随之重塑。（作者｜张帅，编辑｜盖虹达）

点赞 0 收藏(0)

0个评论

消灭零评论