
作者 | 骆轶航
邮箱 | tluo@pingwest.com
12月1日,豆包手机助手上线。
它偷了蚂蚁森林能量,成功了;它在 B 站答题领会员,全程自动操作;有人让它“把昨天拍的照片在微信上发给我妈”,搞定了。
不到两天,它就被微信屏蔽了。支付宝、淘宝、美团等等,随即先后屏蔽了豆包手机助手打开它们的 App。
风波未平,AI 创业公司智谱又上场了。12月9日深夜,智谱开源了 AutoGLM,口号响亮:“让每台手机都成为 AI 手机,AI 手机不该掌握在少数厂商手中”,拉高了一波 AI 手机概念股。
在一文中我说过:接下来你会看到更多的“手机助手” 试图打开你的微信、抖音和支付宝。没想到这么快就来了。
豆包手机助手的兴奋感已经传到了大洋彼岸,有开发者在 X 上说:“这是我见过第一个真正能用的 AI 手机助手,不是 Siri 那种‘帮你设个闹钟’的玩具级功能,是真的能跨应用完成复杂任务链。”
它展示了一个强大的 GUI Agent 的真正潜力——不需要 App 开放 API,Agent 直接“看”屏幕理解界面;不需要人工训练每个 App 的操作路径,Agent 自主学习,跨应用无缝切换,完成一个完整任务链。
难怪 X 上也有评论说:“这是 iPhone 问世以来,手机交互方式最大的一次革命”。
豆包手机助手证明:GUI Agent 作为一种产品形态,是成立的,用户需求也是真实的,搭载了豆包助手的Nubia M153 工程机在闲鱼上的热销,超过 99% 天天上播客和 demo day 的 AI 创业项目。
而智谱 AutoGLM 的开源,在豆包把市场教育完,也把雷点踩完之后,以“开源英雄”的人设,收割了一把关注度和认知。
它用了一种更“高明”的办法:ADB +视觉识别方案,在“云手机”的虚拟环境里操作,操作手机的方式更隐蔽,它无需获得更高级别的手机系统权限,模拟的是人类用手指点击屏幕的行为,平台风控很难区分是真人还是 AI。
AutoGLM 还借此享受了一把开源的声誉红利,但不用承担任何产品的法律风险——用户怎么部署是他们的事。问题是:配置ADB、开发者模式、部署 9B 的推理模型,这事儿普通人是搞不定的。闲鱼上已经有人卖“100元代部署AutoGLM 服务”了。
恕我直言,我觉得智谱 AutoGLM 开源对推动智能手机的 AI 化意义相当有限。
比起豆包是真的想让一部分人先用上一部“AI 原生” 的手机,AutoGLM 更多的是秀了一把肌肉,收割了一波注意力,以及提供了一种看似目前可以绕开微信、支付宝和美团们“封禁”,然则终将被堵上的技术漏洞。现在已经有开发者出来报错了:自己部署的 AutoGLM,被微信封了。
该没解决的问题,一个也没解决。Super Agent 和 Super App 之间的关系,一点儿也没理顺。
一句话,AI 手机怎么搞,需要产业的广泛共识,需要 Super Agent 和 Super App 之间的共识。
中国移动生态太发达了,互联网巨头们围绕着 App 建立起来的流量、护城河、生态和利益太丰富了,它已经成为了推动手机 AI 化的 legacy ——打破任何一点现在的格局,都让巨头们难受。
但该来的,还是要来。
1
第一个问题:能不能有 AI Agent 认证体系?
豆包助手暴露的问题是:努比亚授权了 AI 能用系统级权限,但 App 厂商不认。
中间缺少的环节是:谁能授权 AI 操作第三方 App?
模拟用户的点击、滑动、输入,是豆包从努比亚获得的授权。从技术角度看,这是手机操作系统赋予的合法能力。但微信的用户协议明确禁止“外挂软件”,任何模拟用户操作的行为都属于违规。
这个时候,为什么不能有一个“ AI 代理操作认证体系” 呢?就像网站有 SSL 证书证明身份和安全性,AI Agent 为什么不能有一个“可信代理”认证体系呢?
至少,它能解决三个问题:第一,证明AI的身份——谁家的 AI,什么技术架构;第二,证明AI的授权——用户让我干什么,授权范围是什么,有没有超出授权;第三,证明AI的安全性——不会乱来,有安全措施,有操作日志,有责任保险。
当年支付宝刚出来的时候,银行也不舒服,觉得你凭什么代替我跟用户交互?这是我的客户,你凭什么中间过一道?后来,有了第三方支付牌照,问题就解决了。规则是:满足这些条件,你就能做第三方支付;不满足,就不能做。银行可以对接,也可以拒绝,但是要有一套通行的依据。
同理,AI Agent 也需要这样一个“代理操作认证” 体系,它未必是一张牌照,而是一套通行的技术标准。不是谁都能随便模拟用户操作,但只要你符合标准,通过认证,平台就不能无理由拒绝。
别再争了各位。美国人是最擅长制定这种技术共识标准的,我们达不成共识,最后就还得用 OpenAI 和 Anthropic 制定的标准。
1
第二个问题,能不能把最高权限交给用户?
聊天记录、支付记录、打车订单,所有权、使用权、授权权分别是谁的?
App 可以认为:用户的数据在我平台上,是我的资产。我投入了服务器、带宽、运维成本,提供了免费服务,数据当然有我的权益。而且用户协议里写了,用户授权我使用这些数据来改进产品、推送广告。
用户觉得:这是我的隐私,我的聊天内容,我跟朋友的对话,凭什么不能给我自己的 AI 看?我授权 AI 帮我整理聊天记录、提取重要信息、提醒我未读消息,这是我的权利。
AI 模型和 Agent 提供者认为:用户授权了,我就可以读取、分析、使用这些数据来提供服务。我不会泄露给第三方,不会用于训练模型(除非用户同意),我只是代表用户行使他/她的权利。
这个时候,明确“数据所有权归用户” 的至高原则是非常重要的,它决定了一切用户授权、AI 代理 和 App 安全防范机制的基础。
这意味着以下几点:
用户在平台上产生的内容、行为数据,归根结底属于用户本人,平台提供服务,但不拥有用户的数据。
数据使用权可以授权,平台有权使用数据提供服务(比如推荐算法、个性化广告),这是用户协议中约定的,但用户也有权授权第三方 AI 使用数据,这两个授权之间不应该冲突。
平台有安全审查权,但不能无理由拒绝,如果 AI通过了认证,证明了安全性,就不该轻易被拒绝。
1
第三个问题,能不能重新创造商业模式?
Super Agent 动了 Super Apps 的蛋糕,这简直是一定的。
因为人的浏览行为被 Agent 取代,推荐算法带来的注意力机制会被颠覆。这样,广告收入会被影响,流量分发的收入来源也会被影响,甚至会员收入也被影响。
但 Super Agent 自己呢?如果它的存在只是削弱了平台的收入,而自己的 GPU 算力、模型研发和优化等成本又居高不下,久而久之,无人从这场变革中受益,这个游戏就玩不下去了,就会变成双输或者多输的游戏。
在这种情形下,重新想象和创造商业模式就是很重要的。
OpenAI 跟亚马逊现在关系很紧张,但它与沃尔玛的合作是一个不错的例子。现在沃尔玛 36% 的线上流量来自 OpenAI,尽管现在没有听说它们之间又什么分成计划,但这件事不值得想象么?这就好比是搜索引擎的CPC(按点击付费)模式:每一个通过 ChatGPT 引导到沃尔玛的用户,沃尔玛付给 OpenAI 一笔费用。
再比如 Agent 的订阅费用——如果 Agent 购物真的能给一个用户每年省2000元人民币的话,一个月收20元的订阅费不过分吧?这笔钱,Super Agent 是应该分一部分给 Super Apps 的。就像爱奇艺的会员用户可以付费跳广告,YouTube 从订阅费里分成给创作者,是一个道理。
此外,增值服务分层设计是不是可行?基础功能免费,但限制次数,只能用于常规任务。如果用户真的有强烈意愿,让 Super Agent 操作微信自动回复、支付宝账单管理、滴滴会员卡管理等高级功能的话,还是要为高级功能付费的——也就是执行复杂任务链、跨平台操作,处理敏感信息私有信息,甚至企业定制化等高级功能,都得收钱,这个钱要跟 Super App 分成。
这个问题不解决,平台就会一直抵制,这也是可以理解的。
1
第四个问题,能不能推广沙盒确认和分级确认的安全机制?
把“我爱你”发给了男老板而不是女朋友,要转100元结果转了10000元,Agent 误删重要聊天联系人,清理垃圾文件把重要工作文档也删了……这些事如果出现,责任是谁的?
很多人忽略了,AI 犯错的成本,往往比人犯错更高——因为 AI 操作速度快,一秒钟能完成人需要一分钟完成的任务,出错了也是大规模出错,人想挽回都做不到,标准的手慢无。
AI 被黑客了怎么办?钓鱼邮件和诈骗电话能骗人,就一定骗不了 AI?AI 一定比老头老太太反诈意识更强?AI 在社交平台发布不当内容,被封了号算谁的?AI 自己发现刷单能赚钱,用假账号注册能领红包,它会不会自己学会作弊?AI 是通过学习优化的,如果它的目标是帮用户省钱,作弊是最有效的方式,它真的不会作弊?
为了规避这些问题,类似“沙盒”的模式是重要的。目前豆包助手采用的方式先是预览操作步骤,用户确认后再执行,并在执行过程中实时显示操作过程,这其实已经具备了沙盒思维了,它的本质是一种确认机制。
另一种方式是:AI 可以先在虚拟环境里“练习”,练熟了再上真机。敏感操作必须先在沙盒里预演,系统模拟执行,生成预览结果,用户看到“如果执行会发生什么”,确认没问题后,才在真实环境执行。不需要人自己干,但需要人至少点一次确认。
在这个基础上,建立分级确认机制也是可行的。不是所有操作都需要用户确认,那样太烦,用户体验会很差。根据风险等级设计确认流程:读取信息无需确认;发消息和社交媒体等常规操作,弹窗简单确认;支付、转账、修改密码、保存和删除数据,都需要人的多重验证。
此外,用户需要有随时喊停 AI 的权力,一键中断所有正在执行的操作。就像电梯的紧急停止按钮。而 AI 发现异常也要自动停止——这些方面银行和自动驾驶企业都已经做过了,AI Agent 服务提供者也应该做好。
一句话,让用户承担全部风险是不对的。
豆包手机助手这次掀起的波澜,如果说它真正有些意义的话,恐怕在于两点:
第一,它告诉了人们:GUI Agent 可以成为真正的 Super Agent,它真的创造了手机上的一次交互变革,引发了兴奋、争议、喧哗和骚动。让人们知道,AI 真的可以跟你一起操作你的手机。
第二,比起很多智能手机厂商的 Agent 尝试,它第一次直捣黄龙,代理一小撮追求技术进步的尝鲜用户,“操作”了他们的 Super App,比如微信、支付宝、美团和京东,让如何建立 AI Agent 的产业标准,如何思考 App 这个存在了快20年的物种在 AI 时代该如何变革等一些问题,变得无可回避。
接下来,需要的是共识,以及为了建立共识而继续的博弈。
点个“爱心”,再走 吧