[中国, 北京,2025 年 5 月 23 日] AI 应用即将迎来爆发式增长, 从模型训练到推理, 从模型推理到 AI 应用, 可以说 CPU 已无处不在。在鲲鹏昇腾开发者大会 2025—— 鲲鹏开发者峰会上, 华为鲲鹏计算业务总裁李义发表《鲲鹏, 打造 AI 时代先进算力底座》主题演讲。
华为鲲鹏计算业务总裁李义
以下为演讲全文:
各位嘉宾、开发者朋友们, 大家上午好!
当代码成为新时代的文字, 开发者就是文明的创造者。
在广大开发者的共同努力下, 鲲鹏产业生态持续繁荣发展, 基于鲲鹏技术的应用创新不断, 加速行业智能化升级。截至 2025 年 5 月, 鲲鹏携手 6300 余家伙伴, 孵化了超过 18100 个解决方案, 并广泛应用于千行万业。鲲鹏计算产业历经六年发展, 通过硬件开放与软件开源战略构建了覆盖数据中心到边缘场景的完整生态, 并正式发布面向 AI 时代的 "鲲鹏 AI + 解决方案"。
1、AI Core 方面, 提供鲲鹏 +xPU 推理方案, 兼容昇腾等主流 GPU, 覆盖数据中心到边缘场景。
鲲鹏与 DeepSeek 深度融合, 基于“鲲鹏 + xPU”组合, 构建高安全、低 TCO 的 AI 算力底座, 为企业提供更灵活组合的智能化底座。鲲鹏提供全系列主板和模组, 目前已经有 7 家 OEM 伙伴已经推出 10 余款推理服务器,20 余家 KPN 伙伴推出了 20 余款边缘推理一体机 / 工作站, 覆盖数据中心和边缘场景, 适配昇腾等主流 xPU, 做到生态协同。
同时, 鲲鹏与 openEuler 协同, 实现内存融合和算力融合, 通过 GMEM 做到 xPU 和 CPU 内存统一编址, 提升 xPU 利用率; 通过 sysHAX 将部分推理任务精准分配给 CPU 处理, 实现 CPU 和 xPU 算力协同, 能够覆盖 MoE 模型和稠密模型。LLM 推理吞吐量提升 10%~30%。
会上, 趋境科技依托鲲鹏基础软硬件平台, 在 Ktransformer 架构优化中取得的突破性进展, 正式发布鲲鹏鲲鹏 +xPU 解决方案。
2、 AI Infra 方面, 提供鲲鹏 AI 数据工程组件和鲲鹏 AI 安全组件, 提供性能更优、更安全的数据处理、数据检索等能力。
鲲鹏 AI + 数据工程组件: 围绕大模型全生命周期, 打造 AI 全链路数据基础设施。
鲲鹏基于业界主流的开源数据处理平台, 在电商订单、广告日志等实时数据处理场景上, 提供代码自动翻译工具, 使 Java 算子具备 C++ 的性能, 数据处理效率提升 1 倍以上; 在文本去重、视频切片等多模态数据处理场景, 通过多模态算子优化和算子调度优化, 数据处理性能提升 75%, 算力的利用率提升 2 倍。
模型推理阶段, 通过 openGauss DataVec 的高效向量检索算法和稀疏召回能力, 实现非首 token 时延下降 25%; 同时对 KV Cache 进行透明压缩, 实现推理吞吐量提升 20-30%。
鲲鹏 AI + 安全使能套件:3 道安全防线实现纵深防御, 端到端保护 AI 模型和私域数据安全。
第 1 道防线: 基于鲲鹏可信计算, 通过逐层度量硬件和系统软件, 保障系统完整性, 同时, 通过白名单管控机制, 防止非授权应用的加载;
第 2 道防线: 通过在 openGauss 向量数据库中内置攻击检测插件, 防止恶意命令注入攻击及高危命令执行;
第 3 道防线: 基于鲲鹏 virtCCA 和 PCIPC 机密计算能力, 构建 CPU+xPU 安全隔离的可信执行环境, 实现机密 AI 和机密 RAG, 保护 AI 模型和 RAG 私域知识运行时安全, 保护客户的核心资产。
鲲鹏 3 道防线, 实现纵深防御, 助力客户在 AI 时代打造坚如磐石的智能算力底座。
3、 AI 应用方面, 提供业务编排、部署、调度等能力, 基于开源生态, 构建企业端到端 AI 解决方案, 做到开箱即优。
鲲鹏搜广推解决方案: 围绕召回和排序极致优化, 助力企业打造新一代智能推荐引擎
AI 应用方面, 在互联网搜索、广告、推荐场景, 鲲鹏围绕召回和排序极致优化性能: 在召回阶段, 鲲鹏适配 ScaNN 和 faiss 等主流检索框架, 并通过向量检索算法和核心算子优化, 提升检索性能 40% 以上。在排序阶段, 鲲鹏适配 TensorFlow 等主流的推理框架和推理服务, 并结合鲲鹏算子加速库、鲲鹏图编译器的优化, 平均提升排序性能 20% 以上。鲲鹏搜广推能力, 可广泛适配电商、视频、社交等高并发推荐场景, 助力企业构建高性能、低成本的新一代智能推荐引擎。
鲲鹏 RAG 解决方案 1.0, 支撑 ISV 伙伴按需集成、高效部署
在企业数智化转型的深水区, 如何高效构建、快速部署 RAG 系统, 成为破局关键。
今天, 我们正式发布鲲鹏 RAG 解决方案 1.0, 基于鲲鹏 CPU 和昇腾 NPU、第三方 GPU 卡, 打造包含 RAG 业务编排、AI + 微服务、部署调度、安全和存储的开源开放体系, 定义企业级 RAG 的技术标杆。
鲲鹏 RAG 解决方案天然支持多种开源组件, 云上、线下不同部署方式, 目前已被行业 70+ISV 伙伴预集成, 如果使用鲲鹏 + openGauss 的产品组合, 还能享受领先业界 30% 性能提升。
会上, 北京宝兰德软件股份有限公司、北京东方通科技股份有限公司、江苏润和软件股份有限公司、软通动力信息技术 (集团) 股份有限公司、深圳市长亮科技股份有限公司和卫宁健康科技集团股份有限公司发布基于鲲鹏 RAG 解决方案 1.0 打造各自行业的差异化的 RAG 解决方案。
4、全新发布鲲鹏 AI 工具链, 助力 AI 应用创新更高效、更卓越
为了帮助广大开发者快速进行 AI 应用创新, 鲲鹏全新发布 AI 工具链: 鲲鹏 DevKit AI 开发套件和鲲鹏 BoostKit AI 使能套件, 让 AI 应用开发更高效、性能更卓越:
首先, 在算子开发、调试、AI 硬件诊断和算子调优过程中, 鲲鹏 DevKit AI 开发套件能够帮助开发者一键完成源码向量化改造, 快速调试大规模异构算力、定位 AI 程序问题, 精准识别并排除 K+X 集群故障与配置错误, 全面调优热点函数、智能迭代系统最优参数, 实现端到端开发效率提升 30% 以上;
其次, 在性能加速方面, 鲲鹏 BoostKit AI 使能套件提供基于鲲鹏架构优化的 AI 加速库、图编译器、推理引擎和推理服务等能力, 实现典型场景性能提升 20% 以上, 其中通过推理服务 vllm 优化,deepseek 满血版本吞吐可达 60TPS; 在搜广推的应用中, 推理引擎的向量化使能、配置优化等也可提供 10%-30% 不等的性能提升;
openFuyao 社区开源发布, 助力算力效能充分发挥
为了解决异构算力协同困难、集群软件生态不完善等挑战,openFuyao 社区正式开源!openFuyao 聚焦“云原生 + AI”, 打造多样化算力互联的集群管理与调度能力, 提供算力亲和组件及面向生产的社区发行版, 实现集群算力的弹性调度和高效释放。
openFuyao 是华为继 openEuler 开源操作系统、openGauss 开源数据库之后, 面向业界开源的又一力作! 我们将持续贯彻硬件开放、软件开源的生态方针, 联合伙伴一起建设集群算力开源社区。本次 openFuyao 正式启动开源, 代码于 2025 年 5 月面向首批伙伴开放,2025 年 Q3 正式开源。社区官网链接:https://www.openfuyao.cn/
一码多芯, 同辕开发, 软件归一, 硬件开放
去年, 鲲鹏开发流水线正式发布, 今年, 我们将鲲鹏开发升级到了“一码多芯, 同辕开发”。鲲鹏同辕开发, 通过开发流水线、工具和加速库的合作, 实现缩减鲲鹏 / x86 架构及机型的开发差异, 一套代码、软件归一; 多平台版本发布, 硬件开放, 提升客户和伙伴业务应用的竞争力和连续性。
鲲鹏同辕开发应用创新离不开开发者的共同努力, 我们计划专项激励发展鲲鹏的同辕开发生态; 结合技 3 项生态权益、3 大使能平台来激发企业、高校、个人开发者的创新。
回首过去, 鲲鹏以算力为舟, 与百万开发者携手前进, 展望未来, 鲲鹏初心不变, 与开发者共成长!
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。