门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
公社水吧
›
大话智能
›
当AI接管你的手机屏幕,如何规避“黑镜”式预言? ...
返回列表
当AI接管你的手机屏幕,如何规避“黑镜”式预言?
[复制链接]
你你你你呀5
前天 23:07
显示全部楼层
|
阅读模式
只需一句语音指令,手机便能帮你实现点咖啡、订餐厅、发红包、拨打微信电话等任务。类似这样“聪明的手机”的演示,频繁出现在各大手机厂商和大模型公司的发布会现场,成为AI手机的新卖点。
AI助手不止步于聊天说话,还能上手干活——尽管它的能力范围目前还较为有限。“大模型带来手机自动化的变革。”vivo AI Lab研究团队在近期一篇论文中写道。在手机硬件创新乏力的背景下,大模型加持激发产品新的想象空间。
但对任何一家做AI助手的公司而言,隐私和数据保护是绕不开的头等事项。南都数字经济治理研究中心测试发现,一些AI助手读取屏幕信息进而决策和执行任务,同步记录用户的行为偏好。如何事前获得用户知情同意,以及事后防范隐私及数据的滥用及泄露,成为关乎商业基础的考验。荣耀前CEO赵明直言:“没有数据保护和隐私安全的AI毫无价值。”
当用户依靠手机厂商内置的AI助手调用其他App时,预示着流量入口的迁移:硬件厂商掌握了主动权。AI助手默认调用美团还是饿了么?携程还是同程?势必影响同业竞对的流量分配,搅动商业竞争格局。
面对手机厂商抢滩布局AI助手,第三方App公司也在追问:手机厂商通过什么形式调用了各家App?一些AI助手的技术路线又是否合规?
手机“自动驾驶”时代
AI智能体何以成为新卖点
“智能手机已经正式进入‘自动驾驶’的时代。”2024年10月下旬荣耀发布MagicOS 9.0时,赵明如是形容。
荣耀Magic 7发布会上,赵明演示AI智能体点咖啡功能。图:发布会截图
中国市场上份额前五位的安卓手机品牌——华为、小米、OPPO、vivo和荣耀,均宣传内置的手机助理经过了大模型的改造。大模型公司也在入局AI助理产品。去年11月29日智谱推出的手机AI智能体AutoGLM,能实现跨App自主执行任务。
如果将AI智能体比喻为“自动驾驶”,传统的手机自动化只能算“辅助驾驶”。尽管AI智能体当前缺陷明显,但已经朝着更高水平的智能迈进一大步。
vivo AI Lab研究团队在一篇1月初的论文中介绍,类似于苹果手机快捷指令(Shortcuts)这样的传统手机自动化功能,通用性差,如果App更新其界面,可能就无法再正常运行该App;维护成本亦高,当App界面布局发生变化或功能更新时,需要专业人员花费大量时间和精力重新调整和优化脚本;更关键的是,这样的手机助手意图理解能力弱,缺乏对复杂自然语言的深入理解能力;而且,手机屏幕的感知能力弱,难以准确识别并与各种不同的屏幕控件交互。
大模型加持后,手机自动化迎来迭代。整合了大模型自然语言处理、多模态感知和动作执行能力的AI智能体,习得手机助理必备的基本技能:理解人类指令的意图、规划复杂任务并自动执行。
按照专业术语的描述,AI智能体融合了感知、决策和执行三大模块,好比人类的眼睛、大脑和双手,每操作一步都依靠三大模块的组合运作。
举个点咖啡的例子,用户首先发出“点一杯瑞幸咖啡”的语音指令。AI智能体理解指令含义后,开始通过屏幕截图等手段,感知手机界面上的元素,上面有五花八门的App图标。这时,AI智能体开始调用记忆库和知识库的信息,进行思考决策,意识到一个名为美团的黄色图标可以点外卖。紧接着,它执行动作,点开美团App。点开后面对一个全新的手机界面,AI智能体又要重新一步步感知、决策和执行,循环运作,直至最终选中用户所需的咖啡。
2023年底,某头部大模型公司首席科学家俞刚发表过一篇关于AI智能体的论文。他告诉南都记者,彼时,AI智能体效果相当一般,很多复杂的任务解决不了,仅仅是demo展示。但到了2024年,智能体的性能取得很大提升:通过图片理解能力,可以识别手机界面内容及按钮位置并模拟点击;借助任务拆解能力,能够把整体的任务链路分解为一系列具体的执行动作。
在俞刚看来,当前很多手机厂商宣传的AI智能体应用案例,仍然比较常规和简单。AI智能体真正有价值的应用场景,应该是比较复杂、需要用户花一些时间思考和解决的任务。比如跨应用进行商品比价,帮助用户算出性价比最高的选择。
技术路线分野
更丝滑的方案阻力大
零适配的方案难度高
去年10月中旬,赵明在微博发布一段演示视频:简答一句指令,手机就自动查询手机余额和话费续费。视频画面显示,YOYO助理先理解用户意图,再唤醒中国移动App,改由移动的“灵犀”智能体接管执行任务。
手机厂商和第三方App的此类合作模式,业内称之为“意图框架”的技术路线。华为等厂商均有采用。
此种路线之下,经第三方App授权后,手机后台直接调用第三方App的应用程序编程接口(API),完成任务。手机厂商自带的AI助理,好比一位超市导购,根据用户不同的需求,以API接口的方式,导向对应的App服务。
以华为展示的多个场景案例来看:在出行领域,同程旅行接入“意图框架”后,就能通过华为AI助手小艺帮助用户规划行程,小艺会主动询问更多的行程信息,比如人数、出发时间等,并根据这些信息定制个性化旅游方案;在办公场景,只需对小艺说一句话,智能体就可以理解用户用钉钉开会的意图,直接找出钉钉里的联系人,然后拉起钉钉会议。
一位智谱人士评价,基于API接口的AI智能体,“操作上更丝滑”。
“如果App厂商愿意开放API,对手机厂商的AI智能体而言是一项巨大优势。”王君阳是阿里和北京交通大学AI智能体研究团队成员之一,他向南都记者介绍,手机AI助手此时可以一步到位地执行用户指令,无需每操作一步都运行一遍“感知—决策—执行”的流程。
手机厂商作为“调度员”,掌握了流量的分发权。但一位荣耀的人士感慨,有些第三方App并不愿意适配接入,担忧开放API接口产生数据安全隐患。
按照vivo开发者社区官网一篇文章的介绍,第三方App需要共享自己的感知数据给手机厂商的“意图框架”,以促使“框架”学习用户行为规律,并以此更精准地判断用户意图,提升智能推荐的准确性、提升分发效率。同时,“意图框架”也会传递意图数据给第三方App,第三方App按照接入标准,接收、解析传入的意图数据并返回业务数据给意图框架,以便“框架”向用户展示第三方的服务。
一旦涉及向手机厂商交换共享数据,对App运营公司而言,用户的个人信息安全便如高悬的“达摩克利斯之剑”,增大合规压力。另外,商业利益层面的考量,亦在阻碍API接口方案的推进。王君阳说,如果AI智能体操控任务,可能干扰App厂商的营利机制,如开屏广告无法触达用户。前述智谱人士补充称,用户使用时长,是平台非常看重的一项指标,而AI智能体本质上是帮用户节省时间,“二者的需求是一个矛盾,不太可能调和”。
受限于此,一种无需第三方App授权适配的技术方案——视觉路线,有了更大的用武之地。用技术专家的话说,采用视觉路线的AI智能体,和人类查看屏幕内容和操作手机并无二致,不再依靠第三方App的主动适配。
AI智能体模仿人类操作的本领,建立在调用手机系统底层权限的基础之上。其中至为关键的两项权限是无障碍和录屏权限,二者能为AI智能体提供手机界面信息,无障碍权限还具备模拟点击手机能力。所谓无障碍权限,最初是方便残障人士使用手机的模块,由屏幕阅读器(通过截屏等方式访问屏幕上的UI元素)、视觉辅助(如色彩校正与反转)、听觉辅助(如文本转语音)和交互辅助(如自动点击)等功能组成。
综合多位受访技术专家的分析,无障碍权限除了提供必要的模拟点击能力,还可以和录屏权限一起,辅助增强AI智能体理解手机界面。俞刚举例说, AI智能体将录屏获取的截屏进行内容识别,已经能较好理解屏幕信息。但不排除特殊情形下——比如手机字体比较艺术化、按钮设计比较特别,现有模型对截屏的读屏感知可能效果不彰。
和接入API的技术方案相比,视觉路线的劣势体现为,要等App页面渲染完毕,AI智能体才能识别,导致运行不如调用API接口那般快速。而且,受手机界面的复杂程度、具体任务的交互步骤长度等影响,AI智能体伴有不同程度的出错概率。根据智谱发表的论文,常见任务的执行上,走视觉路线的智谱AutoGLM在大众点评、小红书的成功率为100%,在12306和美团上分别降至80%和70%。
有技术专家称,“读屏+模拟点击”的视觉方案,可以打开所有App,但成功率高的只限于大模型厂商基于脚本训练的有效场景。由于当前手机助手的智能化水平有限,一旦App改变了页面设计,操作成功率就会受损。
前述智谱人士则表示,视觉方案的泛化性更强。当App版本更新,变换了按钮和界面,AI智能体依然按照任务需求一步步寻找和操作,只是对界面的理解不那么熟悉,“可能精准度有所下降,但不会崩掉”。
王君阳解释,理论上,手机界面变化对AI智能体的影响不大,因为任务操作的逻辑本质上没有改变。拿买机票来说,在任意平台订购的流程,无非是找到App入口、输入起点、输入终点、选定时间、点击搜索航班。“只要智能体具备感知、思考、决策和反思能力,不在乎UI(用户界面)怎么变”。
这意味着,随着手机助手越来越聪明,代替人操作所有App的所有页面将成为可能。
荣耀是视觉路线AI智能体的尝鲜者。公开信息披露,荣耀与智谱开展了基于AutoGLM的深度合作。前述荣耀人士视二者为分工协作的关系:智谱专研大模型技术,提供源代码,类似于造汽车发动机的角色;荣耀专注于应用,好比将发动机与轮胎、底盘等其他配件组合成整车,出售给消费者。这位荣耀人士坦言,手机厂商如果投身基础大模型,或面临技术水平和财务压力等阻碍。
灰色地带的底层权限调用
“无障碍权限”潜在安全隐患引担忧
AI智能体调用的无障碍权限,是安卓手机系统内一项非常敏感的权限。无障碍权限听上去陌生,但过往不少耳熟能详的争议性产品均与此相关。
2023年8月,能跳过安卓手机各大App开屏广告的软件“李跳跳”宣布停止更新。这款跳过广告的软件,实际上是借助系统上无障碍权限实现:识别屏幕上“跳过”按钮的位置,再自动完成点击的动作。更早之前,有手机软件能自动帮用户抢红包,同样是基于无障碍权限的调用。
“李跳跳”和自动抢红包软件因调用无障碍权限而遭遇的拷问,这一次AI智能体也逃不过。
背离初衷是AI智能体厂商遇到的第一层质疑。无障碍权限的出发点,是让App通过该接口给残障人士提供便捷的服务,AI智能体显然超出该权限的原有设计目的。
2017年11月,谷歌邮件通知所有应用开发者:除非开发者能明确澄清App通过使用辅助功能服务,是用来帮助残障人士更好地使用安卓设备和应用,否则,将拒绝其使用该服务接口的请求,并将其应用程序从谷歌Play商店中移除。一位技术专家表示,谷歌的限制限于App层面,由于手机厂商自身可以充分个性化定制操作系统,谷歌无法监管手机厂商如何使用无障碍权限。
隐私风险是第二层质疑。当用户开启无障碍权限时,以小米为代表的手机厂商会弹出“危险”的红色警告标识,提醒用户授予App无障碍权限,用户的个人隐私信息可能会泄露,财产安全将受到威胁。
开启无障碍权限时,许多智能手机会弹出风险警告。
上海交通大学软件学院教授陈海波等人在一篇论文中写道,窃取用户隐私数据,是无障碍权限被开发者滥用的情形之一。一些应用通过无障碍服务,捕获到屏幕上的文本内容,然后通过网络传输出去,造成用户隐私信息的泄露,给用户带来巨大损失。
一位互联网合规人士进一步称,无障碍服务隐私风险突出表现为,可以读取屏幕文本内容,监视和记录用户的所有操作,其中有可能包括用户输入的敏感信息。
安全威胁是第三层质疑。前述互联网合规人士介绍,无障碍服务开启后,黑客攻击者可以自动授予恶意程序更高的权限,执行敏感的模拟点击,禁用安全软件或系统安全设置,从而降低移动智能终端的安全性。
南都记者实测发现,智谱AutoGLM初次安装打开后,会统一告知其需要获取设备的无障碍权限、悬浮窗权限、麦克风权限和录屏权限。执行具体指令任务前,AutoGLM还就无障碍权限单独获取授权,引导用户跳转至手机设置中的无障碍界面,手动开启该权限。开启时,手机系统会弹出提醒,告知AutoGLM需要借助无障碍权限中的具体功能:监测操作,在用户与应用互动时接收通知;检索窗口内容;开启触摸浏览;执行点按、滑动、双指张合等手势;截取显示画面的屏幕截图。当用户退出AutoGLM后台,无障碍权限随之关闭,直至再次启动时重新获取授权。
相比之下,荣耀AI智能体YOYO助理的权限获取,则较为隐蔽。南都1月中旬的实测发现,为了实现点外卖、给好友发微信文件等任务,YOYO助理离不开手机“情景感知”功能模块的参与,而“情景感知”功能模块又需要无障碍权限的支撑。然而,调用无障碍权限时,YOYO助理未告知且获得用户的单独授权同意,悄悄开启权限。而根据安卓官网的规定,无障碍权限必须由用户在设备设置中明确打开后才能启动。
截至发稿,荣耀方面未回复南都记者就YOYO助理权限调用问题的询问。
荣耀YOYO助理执行点咖啡任务时,“情景感知”功能模块自动开启了无障碍权限。
多位受访者表示,智谱作为第三方的AI智能体开发商,只能曲线借道,让用户开启无障碍权限去读屏和模拟点击。但手机厂商拥有更高的权限调用底层优势,“想获得什么信息非常简单,只不过是需要用户来点一下同意按钮”。快思慢想研究院院长、原商汤科技智能产业研究院院长田丰提到,手机操作系统可以预先设定底层操作权限,直接为内置AI智能体提供相关应用权限。
搭建隐私“防火墙”
敏感数据本地存储
敏感任务人为接管
当AI智能体像人类一样观察手机屏幕,获取上面的信息,能否打消萦绕在用户心中的隐私忧虑,事关AI智能体的应用普及。
在俞刚看来,隐私风险的高低,可以从AI智能体运行是否上云加以判断。如果是端侧运行,只要手机端上的数据不外泄,通常没有数据安全风险;但一旦数据传到云端,此时依赖于云端厂商对用户数据的保护是否到位。
多位技术专家指出,AI智能体在“自动驾驶”过程中的推理,目前仍高度依赖云端算力运行,端侧算力及内存尚难以支撑。王君阳介绍,即使云端运行,AI智能体的时延也只能做到秒级别,不能实现毫秒级别,达不到人类的操作速度。未来最理想的情况是端云协同。
去年11月底受访时,智谱CEO张鹏展望,未来智谱可能会开发一套统一的框架来解决数据隐私和安全问题,例如,通过在本地处理一些不涉及敏感信息的任务,而将更复杂的任务交给云端解决。
张鹏提出从技术演进的角度来应对隐私担忧:“先识别出(技术的)可能性,然后逐步解决伴随而来的问题。”
前述互联网合规人士则建议,除了数据本地存储,也应充分做到让用户知情同意,并提供关闭智能体服务的便捷渠道。
个人信息安全隐患面前,手机厂商和大模型公司筑起风控“防火墙”。实测发现,发红包、点外卖和预定机票场景下,AI智能体止步于付款交易前,留待用户本人输入密码,规避资金交易的敏感风险。
实测显示,部分AI手机智能体给微信好友发红包时,止步于输入密码前一步骤。
但外界担心的是,如果AI智能体的能力持续升级,又在手机界面上看到过银行卡账号、密码,会不会偷偷下单或转账?
面对这样一种“黑镜”式的情景,前述智谱人士称,智谱的AutoGLM不会执行和用户指令毫不相干的任务。“它像一位用户指令的翻译官,在翻译的时候或许出现偏差,但不可能触发跟指令毫不相干的情况”。
不过,有技术人士提醒,在被黑客劫持的情况下,如果不法分子下达了转账或者泄露隐私的指令,智能助手也可能变成手机里的木马软件,危害极大。
俞刚认为,由于智能体的安全隐患比较大,AI智能体运营厂商有必要对转账等任务采取安全控制,确保不是所有的指令都能操作。
AI智能体搅动商业博弈
绕开第三方App是否涉嫌不正当竞争?
站在普通用户角度,隐私安全是其核心关切。但让App厂商反弹情绪更大的是,走视觉路线的AI智能体公司,未经授权便调用各类应用软件。
“App厂商被智能体绕道走后门,直接开窗撬锁。”有第三方App厂商人士指摘,智能体随意调用另一个应用,获取应用的数据信息并进行操作,实际上架空了应用软件的安全机制,影响到运行模式。
另外,AI智能体也可能抢夺第三方App的商业利益。多位受访者认为,AI智能体的自动化操作,可能会波及第三方App的停留时长、广告推荐等获利模式,将原本的流量入口从App迁移至智能体,减少用户关注和使用App的频率。
AI智能体“自动驾驶”App,第三方App不一定能监测到。一位技术专家称,对于过于频繁的点击行为,一些头部App厂商可以对抗,多数中小型App厂商则存在难度。
王君阳在研究时发现,App有时会弹出验证码,这时,AI智能体基本上就放弃操作了,而人类使用App时则不会遇到。他猜测,部分App厂商可以通过一些操作特征来监测AI智能体的操作。例如,AI智能体每次点击的位置不偏不倚,人类可能出现偏差;再比如,AI智能体每次点按屏幕的时间是机械固定的,但人类的操作比较随意。
王君阳说,如果是输入数字验证码,现在的AI智能体已经有能力做到,只是对于精准滑动到某个位置的验证码,尚存在困难。他认为,随着AI智能体能力增强,第三方App的拦截方法将越来越有限,“双方进入了一个博弈阶段”。
博弈之下,前述第三方App厂商的人士站在不正当竞争的角度评价称,按照已有司法案例确立的原则推演,AI智能体运营公司获取第三方App用户数据时,除了获取用户同意,还少不了App厂商的授权。若AI智能体运营公司未取得App方面的授权,擅自收集、存储、使用App中的高度敏感信息(如聊天记录、行为轨迹、交易信息等),“其行为不符合一般意义上的商业道德,不具备正当性”。
“这本质上是新型产品、商业模式和既有产品、商业模式之间发生冲突的问题。”华东政法大学竞争法研究中心执行主任翟巍分析,AI智能体自主操控任务,既可能构成网络不正当竞争行为,又可能是合法的商业模式创新行为。对这类问题不能采取“一刀切”标准,而应当进行个案分析。
翟巍解释,如果第三方App厂商的营利机制是提供免费或低价的服务给消费者,同时利用由此获得的消费者关注度或注意力资源,吸引其他厂商购买其广告投放服务,那么AI智能体自主操控任务,可能使在第三方App投放的广告等无法触达真实的用户,从而破坏第三方App厂商合法的商业模式和营利机制。此种情形下,AI智能体厂商涉嫌不正当竞争。
翟巍续称,如果用户可以完全自愿选择是否使用AI智能体自主操控任务,并且AI智能体只是帮助消费者跳过了虚假广告、骚扰性广告,不会严重干扰第三方App厂商的商业模式和营利机制。那么,AI智能体就可能符合商业道德,构成合法的商业模式创新行为。
君益诚律师事务所顾问杨子江长期参与反不正当竞争法的研究工作。他向南都记者指出,评判一种商业行为能否构成不正当竞争,可以从是否损害其他经营者利益、消费者利益和市场竞争秩序三个维度分析。
杨子江说,第三方App的流量入口转移到AI助手,而且App本身的开屏广告、用户使用时长等营利机制均受到干扰,这很可能有损App厂商的利益。站在消费者角度而言,AI助手表面上提供了一些便利,但消费者享受的App服务并无实质增加,并可能存在用户隐私和数据风险。而且,长远来说也不一定增进消费者福祉。原因在于,利益受损的App,其产品研发和技术改进的激励会降低,并可能不再有更大的财力和人力去投入到产品研发中。AI助手未经授权利用现有App的功能去开展服务,如同寄生在这些App上搭便车,竞争秩序也可能因此被扭曲。
杨子江提醒,为确保合规,宣称第三方App零适配的AI智能体厂商,同样有必要获得第三方App公司的授权。
有从事互联网案件审理的法官指出,不正当竞争的认定,依然要根据不同AI智能体的具体表现予以个案判断,“考察其技术逻辑有没有不正当性,体现的不正当性造成了怎样的损害后果,是不是足以构成不正当竞争”。
该法官分析,总体上看,这类AI智能体并非就某一款App去开发,缺乏一定的针对性。在干扰App厂商广告等商业模式层面,智能体只是让用户未能真正看到App中的广告,而非将广告直接屏蔽。但就智能体获取App用户数据而言,是否经授权,有可能影响到案件结果。
“读屏+模拟点击”面临着各类合规隐患,这也让一些专家开始评估:何种AI智能体技术方案才值得长久推广?
田丰将屏幕视觉路线视为过渡方案。他认为,随着API接口生态更加健全,AI智能体可能会更多通过API接口调动底层功能,逐步减少对读屏和模拟操作的依赖。
出品:南都数字经济治理研究中心
采写:南都记者 杨柳 吕虹
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
你你你你呀5
金牌会员
0
关注
0
粉丝
98
帖子
Ta的主页
发布
发消息
加好友
最近发表
记者探访|跑步、做饭……人形机器人“十八般武艺”这样炼成
伊朗革命卫队在该国西南部举行军演 多种新型无人机亮相
心理治疗机器人能否抚慰人类心灵
宇树科技新四足机器人外观曝光
智能家居:重塑未来生活
人形机器人大战,苹果和Meta都来了
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们