当AI接管你的手机屏幕，如何规避“黑镜”式预言？

你你你你呀5 · 前天 23:07

只需一句语音指令，手机便能帮你实现点咖啡、订餐厅、发红包、拨打微信电话等任务。类似这样“聪明的手机”的演示，频繁出现在各大手机厂商和大模型公司的发布会现场，成为AI手机的新卖点。

AI助手不止步于聊天说话，还能上手干活——尽管它的能力范围目前还较为有限。“大模型带来手机自动化的变革。”vivo AI Lab研究团队在近期一篇论文中写道。在手机硬件创新乏力的背景下，大模型加持激发产品新的想象空间。

但对任何一家做AI助手的公司而言，隐私和数据保护是绕不开的头等事项。南都数字经济治理研究中心测试发现，一些AI助手读取屏幕信息进而决策和执行任务，同步记录用户的行为偏好。如何事前获得用户知情同意，以及事后防范隐私及数据的滥用及泄露，成为关乎商业基础的考验。荣耀前CEO赵明直言：“没有数据保护和隐私安全的AI毫无价值。”

当用户依靠手机厂商内置的AI助手调用其他App时，预示着流量入口的迁移：硬件厂商掌握了主动权。AI助手默认调用美团还是饿了么？携程还是同程？势必影响同业竞对的流量分配，搅动商业竞争格局。

面对手机厂商抢滩布局AI助手，第三方App公司也在追问：手机厂商通过什么形式调用了各家App？一些AI助手的技术路线又是否合规？

手机“自动驾驶”时代

AI智能体何以成为新卖点

“智能手机已经正式进入‘自动驾驶’的时代。”2024年10月下旬荣耀发布MagicOS 9.0时，赵明如是形容。

荣耀Magic 7发布会上，赵明演示AI智能体点咖啡功能。图：发布会截图

中国市场上份额前五位的安卓手机品牌——华为、小米、OPPO、vivo和荣耀，均宣传内置的手机助理经过了大模型的改造。大模型公司也在入局AI助理产品。去年11月29日智谱推出的手机AI智能体AutoGLM，能实现跨App自主执行任务。

如果将AI智能体比喻为“自动驾驶”，传统的手机自动化只能算“辅助驾驶”。尽管AI智能体当前缺陷明显，但已经朝着更高水平的智能迈进一大步。

vivo AI Lab研究团队在一篇1月初的论文中介绍，类似于苹果手机快捷指令（Shortcuts）这样的传统手机自动化功能，通用性差，如果App更新其界面，可能就无法再正常运行该App；维护成本亦高，当App界面布局发生变化或功能更新时，需要专业人员花费大量时间和精力重新调整和优化脚本；更关键的是，这样的手机助手意图理解能力弱，缺乏对复杂自然语言的深入理解能力；而且，手机屏幕的感知能力弱，难以准确识别并与各种不同的屏幕控件交互。

大模型加持后，手机自动化迎来迭代。整合了大模型自然语言处理、多模态感知和动作执行能力的AI智能体，习得手机助理必备的基本技能：理解人类指令的意图、规划复杂任务并自动执行。

按照专业术语的描述，AI智能体融合了感知、决策和执行三大模块，好比人类的眼睛、大脑和双手，每操作一步都依靠三大模块的组合运作。

举个点咖啡的例子，用户首先发出“点一杯瑞幸咖啡”的语音指令。AI智能体理解指令含义后，开始通过屏幕截图等手段，感知手机界面上的元素，上面有五花八门的App图标。这时，AI智能体开始调用记忆库和知识库的信息，进行思考决策，意识到一个名为美团的黄色图标可以点外卖。紧接着，它执行动作，点开美团App。点开后面对一个全新的手机界面，AI智能体又要重新一步步感知、决策和执行，循环运作，直至最终选中用户所需的咖啡。

2023年底，某头部大模型公司首席科学家俞刚发表过一篇关于AI智能体的论文。他告诉南都记者，彼时，AI智能体效果相当一般，很多复杂的任务解决不了，仅仅是demo展示。但到了2024年，智能体的性能取得很大提升：通过图片理解能力，可以识别手机界面内容及按钮位置并模拟点击；借助任务拆解能力，能够把整体的任务链路分解为一系列具体的执行动作。

在俞刚看来，当前很多手机厂商宣传的AI智能体应用案例，仍然比较常规和简单。AI智能体真正有价值的应用场景，应该是比较复杂、需要用户花一些时间思考和解决的任务。比如跨应用进行商品比价，帮助用户算出性价比最高的选择。

技术路线分野

更丝滑的方案阻力大

零适配的方案难度高

去年10月中旬，赵明在微博发布一段演示视频：简答一句指令，手机就自动查询手机余额和话费续费。视频画面显示，YOYO助理先理解用户意图，再唤醒中国移动App，改由移动的“灵犀”智能体接管执行任务。

手机厂商和第三方App的此类合作模式，业内称之为“意图框架”的技术路线。华为等厂商均有采用。

此种路线之下，经第三方App授权后，手机后台直接调用第三方App的应用程序编程接口（API），完成任务。手机厂商自带的AI助理，好比一位超市导购，根据用户不同的需求，以API接口的方式，导向对应的App服务。

以华为展示的多个场景案例来看：在出行领域，同程旅行接入“意图框架”后，就能通过华为AI助手小艺帮助用户规划行程，小艺会主动询问更多的行程信息，比如人数、出发时间等，并根据这些信息定制个性化旅游方案；在办公场景，只需对小艺说一句话，智能体就可以理解用户用钉钉开会的意图，直接找出钉钉里的联系人，然后拉起钉钉会议。

一位智谱人士评价，基于API接口的AI智能体，“操作上更丝滑”。

“如果App厂商愿意开放API，对手机厂商的AI智能体而言是一项巨大优势。”王君阳是阿里和北京交通大学AI智能体研究团队成员之一，他向南都记者介绍，手机AI助手此时可以一步到位地执行用户指令，无需每操作一步都运行一遍“感知—决策—执行”的流程。

手机厂商作为“调度员”，掌握了流量的分发权。但一位荣耀的人士感慨，有些第三方App并不愿意适配接入，担忧开放API接口产生数据安全隐患。

按照vivo开发者社区官网一篇文章的介绍，第三方App需要共享自己的感知数据给手机厂商的“意图框架”，以促使“框架”学习用户行为规律，并以此更精准地判断用户意图，提升智能推荐的准确性、提升分发效率。同时，“意图框架”也会传递意图数据给第三方App，第三方App按照接入标准，接收、解析传入的意图数据并返回业务数据给意图框架，以便“框架”向用户展示第三方的服务。

一旦涉及向手机厂商交换共享数据，对App运营公司而言，用户的个人信息安全便如高悬的“达摩克利斯之剑”，增大合规压力。另外，商业利益层面的考量，亦在阻碍API接口方案的推进。王君阳说，如果AI智能体操控任务，可能干扰App厂商的营利机制，如开屏广告无法触达用户。前述智谱人士补充称，用户使用时长，是平台非常看重的一项指标，而AI智能体本质上是帮用户节省时间，“二者的需求是一个矛盾，不太可能调和”。

受限于此，一种无需第三方App授权适配的技术方案——视觉路线，有了更大的用武之地。用技术专家的话说，采用视觉路线的AI智能体，和人类查看屏幕内容和操作手机并无二致，不再依靠第三方App的主动适配。

AI智能体模仿人类操作的本领，建立在调用手机系统底层权限的基础之上。其中至为关键的两项权限是无障碍和录屏权限，二者能为AI智能体提供手机界面信息，无障碍权限还具备模拟点击手机能力。所谓无障碍权限，最初是方便残障人士使用手机的模块，由屏幕阅读器（通过截屏等方式访问屏幕上的UI元素）、视觉辅助（如色彩校正与反转）、听觉辅助（如文本转语音）和交互辅助（如自动点击）等功能组成。

综合多位受访技术专家的分析，无障碍权限除了提供必要的模拟点击能力，还可以和录屏权限一起，辅助增强AI智能体理解手机界面。俞刚举例说， AI智能体将录屏获取的截屏进行内容识别，已经能较好理解屏幕信息。但不排除特殊情形下——比如手机字体比较艺术化、按钮设计比较特别，现有模型对截屏的读屏感知可能效果不彰。

和接入API的技术方案相比，视觉路线的劣势体现为，要等App页面渲染完毕，AI智能体才能识别，导致运行不如调用API接口那般快速。而且，受手机界面的复杂程度、具体任务的交互步骤长度等影响，AI智能体伴有不同程度的出错概率。根据智谱发表的论文，常见任务的执行上，走视觉路线的智谱AutoGLM在大众点评、小红书的成功率为100%，在12306和美团上分别降至80%和70%。

有技术专家称，“读屏+模拟点击”的视觉方案，可以打开所有App，但成功率高的只限于大模型厂商基于脚本训练的有效场景。由于当前手机助手的智能化水平有限，一旦App改变了页面设计，操作成功率就会受损。

前述智谱人士则表示，视觉方案的泛化性更强。当App版本更新，变换了按钮和界面，AI智能体依然按照任务需求一步步寻找和操作，只是对界面的理解不那么熟悉，“可能精准度有所下降，但不会崩掉”。

王君阳解释，理论上，手机界面变化对AI智能体的影响不大，因为任务操作的逻辑本质上没有改变。拿买机票来说，在任意平台订购的流程，无非是找到App入口、输入起点、输入终点、选定时间、点击搜索航班。“只要智能体具备感知、思考、决策和反思能力，不在乎UI（用户界面）怎么变”。

这意味着，随着手机助手越来越聪明，代替人操作所有App的所有页面将成为可能。

荣耀是视觉路线AI智能体的尝鲜者。公开信息披露，荣耀与智谱开展了基于AutoGLM的深度合作。前述荣耀人士视二者为分工协作的关系：智谱专研大模型技术，提供源代码，类似于造汽车发动机的角色；荣耀专注于应用，好比将发动机与轮胎、底盘等其他配件组合成整车，出售给消费者。这位荣耀人士坦言，手机厂商如果投身基础大模型，或面临技术水平和财务压力等阻碍。

灰色地带的底层权限调用

“无障碍权限”潜在安全隐患引担忧

AI智能体调用的无障碍权限，是安卓手机系统内一项非常敏感的权限。无障碍权限听上去陌生，但过往不少耳熟能详的争议性产品均与此相关。

2023年8月，能跳过安卓手机各大App开屏广告的软件“李跳跳”宣布停止更新。这款跳过广告的软件，实际上是借助系统上无障碍权限实现：识别屏幕上“跳过”按钮的位置，再自动完成点击的动作。更早之前，有手机软件能自动帮用户抢红包，同样是基于无障碍权限的调用。

“李跳跳”和自动抢红包软件因调用无障碍权限而遭遇的拷问，这一次AI智能体也逃不过。

背离初衷是AI智能体厂商遇到的第一层质疑。无障碍权限的出发点，是让App通过该接口给残障人士提供便捷的服务，AI智能体显然超出该权限的原有设计目的。

2017年11月，谷歌邮件通知所有应用开发者：除非开发者能明确澄清App通过使用辅助功能服务，是用来帮助残障人士更好地使用安卓设备和应用，否则，将拒绝其使用该服务接口的请求，并将其应用程序从谷歌Play商店中移除。一位技术专家表示，谷歌的限制限于App层面，由于手机厂商自身可以充分个性化定制操作系统，谷歌无法监管手机厂商如何使用无障碍权限。

隐私风险是第二层质疑。当用户开启无障碍权限时，以小米为代表的手机厂商会弹出“危险”的红色警告标识，提醒用户授予App无障碍权限，用户的个人隐私信息可能会泄露，财产安全将受到威胁。

开启无障碍权限时，许多智能手机会弹出风险警告。

上海交通大学软件学院教授陈海波等人在一篇论文中写道，窃取用户隐私数据，是无障碍权限被开发者滥用的情形之一。一些应用通过无障碍服务，捕获到屏幕上的文本内容，然后通过网络传输出去，造成用户隐私信息的泄露，给用户带来巨大损失。

一位互联网合规人士进一步称，无障碍服务隐私风险突出表现为，可以读取屏幕文本内容，监视和记录用户的所有操作，其中有可能包括用户输入的敏感信息。

安全威胁是第三层质疑。前述互联网合规人士介绍，无障碍服务开启后，黑客攻击者可以自动授予恶意程序更高的权限，执行敏感的模拟点击，禁用安全软件或系统安全设置，从而降低移动智能终端的安全性。

南都记者实测发现，智谱AutoGLM初次安装打开后，会统一告知其需要获取设备的无障碍权限、悬浮窗权限、麦克风权限和录屏权限。执行具体指令任务前，AutoGLM还就无障碍权限单独获取授权，引导用户跳转至手机设置中的无障碍界面，手动开启该权限。开启时，手机系统会弹出提醒，告知AutoGLM需要借助无障碍权限中的具体功能：监测操作，在用户与应用互动时接收通知；检索窗口内容；开启触摸浏览；执行点按、滑动、双指张合等手势；截取显示画面的屏幕截图。当用户退出AutoGLM后台，无障碍权限随之关闭，直至再次启动时重新获取授权。

相比之下，荣耀AI智能体YOYO助理的权限获取，则较为隐蔽。南都1月中旬的实测发现，为了实现点外卖、给好友发微信文件等任务，YOYO助理离不开手机“情景感知”功能模块的参与，而“情景感知”功能模块又需要无障碍权限的支撑。然而，调用无障碍权限时，YOYO助理未告知且获得用户的单独授权同意，悄悄开启权限。而根据安卓官网的规定，无障碍权限必须由用户在设备设置中明确打开后才能启动。

截至发稿，荣耀方面未回复南都记者就YOYO助理权限调用问题的询问。

荣耀YOYO助理执行点咖啡任务时，“情景感知”功能模块自动开启了无障碍权限。

多位受访者表示，智谱作为第三方的AI智能体开发商，只能曲线借道，让用户开启无障碍权限去读屏和模拟点击。但手机厂商拥有更高的权限调用底层优势，“想获得什么信息非常简单，只不过是需要用户来点一下同意按钮”。快思慢想研究院院长、原商汤科技智能产业研究院院长田丰提到，手机操作系统可以预先设定底层操作权限，直接为内置AI智能体提供相关应用权限。

搭建隐私“防火墙”

敏感数据本地存储

敏感任务人为接管

当AI智能体像人类一样观察手机屏幕，获取上面的信息，能否打消萦绕在用户心中的隐私忧虑，事关AI智能体的应用普及。

在俞刚看来，隐私风险的高低，可以从AI智能体运行是否上云加以判断。如果是端侧运行，只要手机端上的数据不外泄，通常没有数据安全风险；但一旦数据传到云端，此时依赖于云端厂商对用户数据的保护是否到位。

多位技术专家指出，AI智能体在“自动驾驶”过程中的推理，目前仍高度依赖云端算力运行，端侧算力及内存尚难以支撑。王君阳介绍，即使云端运行，AI智能体的时延也只能做到秒级别，不能实现毫秒级别，达不到人类的操作速度。未来最理想的情况是端云协同。

去年11月底受访时，智谱CEO张鹏展望，未来智谱可能会开发一套统一的框架来解决数据隐私和安全问题，例如，通过在本地处理一些不涉及敏感信息的任务，而将更复杂的任务交给云端解决。

张鹏提出从技术演进的角度来应对隐私担忧：“先识别出（技术的）可能性，然后逐步解决伴随而来的问题。”

前述互联网合规人士则建议，除了数据本地存储，也应充分做到让用户知情同意，并提供关闭智能体服务的便捷渠道。

个人信息安全隐患面前，手机厂商和大模型公司筑起风控“防火墙”。实测发现，发红包、点外卖和预定机票场景下，AI智能体止步于付款交易前，留待用户本人输入密码，规避资金交易的敏感风险。

实测显示，部分AI手机智能体给微信好友发红包时，止步于输入密码前一步骤。

但外界担心的是，如果AI智能体的能力持续升级，又在手机界面上看到过银行卡账号、密码，会不会偷偷下单或转账？

面对这样一种“黑镜”式的情景，前述智谱人士称，智谱的AutoGLM不会执行和用户指令毫不相干的任务。“它像一位用户指令的翻译官，在翻译的时候或许出现偏差，但不可能触发跟指令毫不相干的情况”。

不过，有技术人士提醒，在被黑客劫持的情况下，如果不法分子下达了转账或者泄露隐私的指令，智能助手也可能变成手机里的木马软件，危害极大。

俞刚认为，由于智能体的安全隐患比较大，AI智能体运营厂商有必要对转账等任务采取安全控制，确保不是所有的指令都能操作。

AI智能体搅动商业博弈

绕开第三方App是否涉嫌不正当竞争？

站在普通用户角度，隐私安全是其核心关切。但让App厂商反弹情绪更大的是，走视觉路线的AI智能体公司，未经授权便调用各类应用软件。

“App厂商被智能体绕道走后门，直接开窗撬锁。”有第三方App厂商人士指摘，智能体随意调用另一个应用，获取应用的数据信息并进行操作，实际上架空了应用软件的安全机制，影响到运行模式。
另外，AI智能体也可能抢夺第三方App的商业利益。多位受访者认为，AI智能体的自动化操作，可能会波及第三方App的停留时长、广告推荐等获利模式，将原本的流量入口从App迁移至智能体，减少用户关注和使用App的频率。

AI智能体“自动驾驶”App，第三方App不一定能监测到。一位技术专家称，对于过于频繁的点击行为，一些头部App厂商可以对抗，多数中小型App厂商则存在难度。

王君阳在研究时发现，App有时会弹出验证码，这时，AI智能体基本上就放弃操作了，而人类使用App时则不会遇到。他猜测，部分App厂商可以通过一些操作特征来监测AI智能体的操作。例如，AI智能体每次点击的位置不偏不倚，人类可能出现偏差；再比如，AI智能体每次点按屏幕的时间是机械固定的，但人类的操作比较随意。

王君阳说，如果是输入数字验证码，现在的AI智能体已经有能力做到，只是对于精准滑动到某个位置的验证码，尚存在困难。他认为，随着AI智能体能力增强，第三方App的拦截方法将越来越有限，“双方进入了一个博弈阶段”。

博弈之下，前述第三方App厂商的人士站在不正当竞争的角度评价称，按照已有司法案例确立的原则推演，AI智能体运营公司获取第三方App用户数据时，除了获取用户同意，还少不了App厂商的授权。若AI智能体运营公司未取得App方面的授权，擅自收集、存储、使用App中的高度敏感信息（如聊天记录、行为轨迹、交易信息等），“其行为不符合一般意义上的商业道德，不具备正当性”。

“这本质上是新型产品、商业模式和既有产品、商业模式之间发生冲突的问题。”华东政法大学竞争法研究中心执行主任翟巍分析，AI智能体自主操控任务，既可能构成网络不正当竞争行为，又可能是合法的商业模式创新行为。对这类问题不能采取“一刀切”标准，而应当进行个案分析。

翟巍解释，如果第三方App厂商的营利机制是提供免费或低价的服务给消费者，同时利用由此获得的消费者关注度或注意力资源，吸引其他厂商购买其广告投放服务，那么AI智能体自主操控任务，可能使在第三方App投放的广告等无法触达真实的用户，从而破坏第三方App厂商合法的商业模式和营利机制。此种情形下，AI智能体厂商涉嫌不正当竞争。

翟巍续称，如果用户可以完全自愿选择是否使用AI智能体自主操控任务，并且AI智能体只是帮助消费者跳过了虚假广告、骚扰性广告，不会严重干扰第三方App厂商的商业模式和营利机制。那么，AI智能体就可能符合商业道德，构成合法的商业模式创新行为。

君益诚律师事务所顾问杨子江长期参与反不正当竞争法的研究工作。他向南都记者指出，评判一种商业行为能否构成不正当竞争，可以从是否损害其他经营者利益、消费者利益和市场竞争秩序三个维度分析。

杨子江说，第三方App的流量入口转移到AI助手，而且App本身的开屏广告、用户使用时长等营利机制均受到干扰，这很可能有损App厂商的利益。站在消费者角度而言，AI助手表面上提供了一些便利，但消费者享受的App服务并无实质增加，并可能存在用户隐私和数据风险。而且，长远来说也不一定增进消费者福祉。原因在于，利益受损的App，其产品研发和技术改进的激励会降低，并可能不再有更大的财力和人力去投入到产品研发中。AI助手未经授权利用现有App的功能去开展服务，如同寄生在这些App上搭便车，竞争秩序也可能因此被扭曲。

杨子江提醒，为确保合规，宣称第三方App零适配的AI智能体厂商，同样有必要获得第三方App公司的授权。

有从事互联网案件审理的法官指出，不正当竞争的认定，依然要根据不同AI智能体的具体表现予以个案判断，“考察其技术逻辑有没有不正当性，体现的不正当性造成了怎样的损害后果，是不是足以构成不正当竞争”。

该法官分析，总体上看，这类AI智能体并非就某一款App去开发，缺乏一定的针对性。在干扰App厂商广告等商业模式层面，智能体只是让用户未能真正看到App中的广告，而非将广告直接屏蔽。但就智能体获取App用户数据而言，是否经授权，有可能影响到案件结果。

“读屏+模拟点击”面临着各类合规隐患，这也让一些专家开始评估：何种AI智能体技术方案才值得长久推广？

田丰将屏幕视觉路线视为过渡方案。他认为，随着API接口生态更加健全，AI智能体可能会更多通过API接口调动底层功能，逐步减少对读屏和模拟操作的依赖。

出品：南都数字经济治理研究中心

采写：南都记者杨柳吕虹

		自动登录	找回密码
密码			立即注册

当AI接管你的手机屏幕，如何规避“黑镜”式预言？

本帖子中包含更多资源

最近发表

公社版块

关注我们