门户
图库
科技
数据
VR
区块链
学院
论坛
百科
导航
登录
注册
帮助中心
公社首页
中国人工智能社区
公社版块
广播
Follow
升级会员
动态
Space
用户名
Email
自动登录
找回密码
密码
登录
立即注册
登录后你可以:
登录
首次使用?
点我去注册
搜索
搜索
本版
文章
帖子
公社群组
用户
好友
收藏
道具
勋章
任务
淘帖
动态
日志
相册
分享
记录
留言板
广播
群组
门户
导读
排行榜
设置
我的收藏
退出
首页
›
公社水吧
›
大话智能
›
当AI接管你的手机屏幕,如何规避“黑镜”式预言? ...
返回列表
当AI接管你的手机屏幕,如何规避“黑镜”式预言?
[复制链接]
你你你你呀5
前天 23:07
显示全部楼层
|
阅读模式
只需一句语音指令,手机便能帮你实现点咖啡、订餐厅、发红包、拨打微信电话等任务。类似这样“聪明的手机”的演示,频繁出现在各大手机厂商和大模型公司的发布会现场,成为AI手机的新卖点。
AI助手不止步于聊天说话,还能上手干活——尽管它的能力范围目前还较为有限。“大模型带来手机自动化的变革。”vivo AI Lab研究团队在近期一篇论文中写道。在手机硬件创新乏力的背景下,大模型加持激发产品新的想象空间。
但对任何一家做AI助手的公司而言,隐私和数据保护是绕不开的头等事项。南都数字经济治理研究中心测试发现,一些AI助手读取屏幕信息进而决策和执行任务,同步记录用户的行为偏好。如何事前获得用户知情同意,以及事后防范隐私及数据的滥用及泄露,成为关乎商业基础的考验。荣耀前CEO赵明直言:“没有数据保护和隐私安全的AI毫无价值。”
当用户依靠手机厂商内置的AI助手调用其他App时,预示着流量入口的迁移:硬件厂商掌握了主动权。AI助手默认调用美团还是饿了么?携程还是同程?势必影响同业竞对的流量分配,搅动商业竞争格局。
面对手机厂商抢滩布局AI助手,第三方App公司也在追问:手机厂商通过什么形式调用了各家App?一些AI助手的技术路线又是否合规?
手机“自动驾驶”时代
AI智能体何以成为新卖点
“智能手机已经正式进入‘自动驾驶’的时代。”2024年10月下旬荣耀发布MagicOS 9.0时,赵明如是形容。
荣耀Magic 7发布会上,赵明演示AI智能体点咖啡功能。图:发布会截图
中国市场上份额前五位的安卓手机品牌——华为、小米、OPPO、vivo和荣耀,均宣传内置的手机助理经过了大模型的改造。大模型公司也在入局AI助理产品。去年11月29日智谱推出的手机AI智能体AutoGLM,能实现跨App自主执行任务。
如果将AI智能体比喻为“自动驾驶”,传统的手机自动化只能算“辅助驾驶”。尽管AI智能体当前缺陷明显,但已经朝着更高水平的智能迈进一大步。
vivo AI Lab研究团队在一篇1月初的论文中介绍,类似于苹果手机快捷指令(Shortcuts)这样的传统手机自动化功能,通用性差,如果App更新其界面,可能就无法再正常运行该App;维护成本亦高,当App界面布局发生变化或功能更新时,需要专业人员花费大量时间和精力重新调整和优化脚本;更关键的是,这样的手机助手意图理解能力弱,缺乏对复杂自然语言的深入理解能力;而且,手机屏幕的感知能力弱,难以准确识别并与各种不同的屏幕控件交互。
大模型加持后,手机自动化迎来迭代。整合了大模型自然语言处理、多模态感知和动作执行能力的AI智能体,习得手机助理必备的基本技能:理解人类指令的意图、规划复杂任务并自动执行。
按照专业术语的描述,AI智能体融合了感知、决策和执行三大模块,好比人类的眼睛、大脑和双手,每操作一步都依靠三大模块的组合运作。
举个点咖啡的例子,用户首先发出“点一杯瑞幸咖啡”的语音指令。AI智能体理解指令含义后,开始通过屏幕截图等手段,感知手机界面上的元素,上面有五花八门的App图标。这时,AI智能体开始调用记忆库和知识库的信息,进行思考决策,意识到一个名为美团的黄色图标可以点外卖。紧接着,它执行动作,点开美团App。点开后面对一个全新的手机界面,AI智能体又要重新一步步感知、决策和执行,循环运作,直至最终选中用户所需的咖啡。
2023年底,某头部大模型公司首席科学家俞刚发表过一篇关于AI智能体的论文。他告诉南都记者,彼时,AI智能体效果相当一般,很多复杂的任务解决不了,仅仅是demo展示。但到了2024年,智能体的性能取得很大提升:通过图片理解能力,可以识别手机界面内容及按钮位置并模拟点击;借助任务拆解能力,能够把整体的任务链路分解为一系列具体的执行动作。
在俞刚看来,当前很多手机厂商宣传的AI智能体应用案例,仍然比较常规和简单。AI智能体真正有价值的应用场景,应该是比较复杂、需要用户花一些时间思考和解决的任务。比如跨应用进行商品比价,帮助用户算出性价比最高的选择。
技术路线分野
更丝滑的方案阻力大
零适配的方案难度高
去年10月中旬,赵明在微博发布一段演示视频:简答一句指令,手机就自动查询手机余额和话费续费。视频画面显示,YOYO助理先理解用户意图,再唤醒中国移动App,改由移动的“灵犀”智能体接管执行任务。
手机厂商和第三方App的此类合作模式,业内称之为“意图框架”的技术路线。华为等厂商均有采用。
此种路线之下,经第三方App授权后,手机后台直接调用第三方App的应用程序编程接口(API),完成任务。手机厂商自带的AI助理,好比一位超市导购,根据用户不同的需求,以API接口的方式,导向对应的App服务。
以华为展示的多个场景案例来看:在出行领域,同程旅行接入“意图框架”后,就能通过华为AI助手小艺帮助用户规划行程,小艺会主动询问更多的行程信息,比如人数、出发时间等,并根据这些信息定制个性化旅游方案;在办公场景,只需对小艺说一句话,智能体就可以理解用户用钉钉开会的意图,直接找出钉钉里的联系人,然后拉起钉钉会议。
一位智谱人士评价,基于API接口的AI智能体,“操作上更丝滑”。
“如果App厂商愿意开放API,对手机厂商的AI智能体而言是一项巨大优势。”王君阳是阿里和北京交通大学AI智能体研究团队成员之一,他向南都记者介绍,手机AI助手此时可以一步到位地执行用户指令,无需每操作一步都运行一遍“感知—决策—执行”的流程。
手机厂商作为“调度员”,掌握了流量的分发权。但一位荣耀的人士感慨,有些第三方App并不愿意适配接入,担忧开放API接口产生数据安全隐患。
按照vivo开发者社区官网一篇文章的介绍,第三方App需要共享自己的感知数据给手机厂商的“意图框架”,以促使“框架”学习用户行为规律,并以此更精准地判断用户意图,提升智能推荐的准确性、提升分发效率。同时,“意图框架”也会传递意图数据给第三方App,第三方App按照接入标准,接收、解析传入的意图数据并返回业务数据给意图框架,以便“框架”向用户展示第三方的服务。
一旦涉及向手机厂商交换共享数据,对App运营公司而言,用户的个人信息安全便如高悬的“达摩克利斯之剑”,增大合规压力。另外,商业利益层面的考量,亦在阻碍API接口方案的推进。王君阳说,如果AI智能体操控任务,可能干扰App厂商的营利机制,如开屏广告无法触达用户。前述智谱人士补充称,用户使用时长,是平台非常看重的一项指标,而AI智能体本质上是帮用户节省时间,“二者的需求是一个矛盾,不太可能调和”。
受限于此,一种无需第三方App授权适配的技术方案——视觉路线,有了更大的用武之地。用技术专家的话说,采用视觉路线的AI智能体,和人类查看屏幕内容和操作手机并无二致,不再依靠第三方App的主动适配。
AI智能体模仿人类操作的本领,建立在调用手机系统底层权限的基础之上。其中至为关键的两项权限是无障碍和录屏权限,二者能为AI智能体提供手机界面信息,无障碍权限还具备模拟点击手机能力。所谓无障碍权限,最初是方便残障人士使用手机的模块,由屏幕阅读器(通过截屏等方式访问屏幕上的UI元素)、视觉辅助(如色彩校正与反转)、听觉辅助(如文本转语音)和交互辅助(如自动点击)等功能组成。
综合多位受访技术专家的分析,无障碍权限除了提供必要的模拟点击能力,还可以和录屏权限一起,辅助增强AI智能体理解手机界面。俞刚举例说, AI智能体将录屏获取的截屏进行内容识别,已经能较好理解屏幕信息。但不排除特殊情形下——比如手机字体比较艺术化、按钮设计比较特别,现有模型对截屏的读屏感知可能效果不彰。
和接入API的技术方案相比,视觉路线的劣势体现为,要等App页面渲染完毕,AI智能体才能识别,导致运行不如调用API接口那般快速。而且,受手机界面的复杂程度、具体任务的交互步骤长度等影响,AI智能体伴有不同程度的出错概率。根据智谱发表的论文,常见任务的执行上,走视觉路线的智谱AutoGLM在大众点评、小红书的成功率为100%,在12306和美团上分别降至80%和70%。
有技术专家称,“读屏+模拟点击”的视觉方案,可以打开所有App,但成功率高的只限于大模型厂商基于脚本训练的有效场景。由于当前手机助手的智能化水平有限,一旦App改变了页面设计,操作成功率就会受损。
前述智谱人士则表示,视觉方案的泛化性更强。当App版本更新,变换了按钮和界面,AI智能体依然按照任务需求一步步寻找和操作,只是对界面的理解不那么熟悉,“可能精准度有所下降,但不会崩掉”。
王君阳解释,理论上,手机界面变化对AI智能体的影响不大,因为任务操作的逻辑本质上没有改变。拿买机票来说,在任意平台订购的流程,无非是找到App入口、输入起点、输入终点、选定时间、点击搜索航班。“只要智能体具备感知、思考、决策和反思能力,不在乎UI(用户界面)怎么变”。
这意味着,随着手机助手越来越聪明,代替人操作所有App的所有页面将成为可能。
荣耀是视觉路线AI智能体的尝鲜者。公开信息披露,荣耀与智谱开展了基于AutoGLM的深度合作。前述荣耀人士视二者为分工协作的关系:智谱专研大模型技术,提供源代码,类似于造汽车发动机的角色;荣耀专注于应用,好比将发动机与轮胎、底盘等其他配件组合成整车,出售给消费者。这位荣耀人士坦言,手机厂商如果投身基础大模型,或面临技术水平和财务压力等阻碍。
灰色地带的底层权限调用
“无障碍权限”潜在安全隐患引担忧
AI智能体调用的无障碍权限,是安卓手机系统内一项非常敏感的权限。无障碍权限听上去陌生,但过往不少耳熟能详的争议性产品均与此相关。
2023年8月,能跳过安卓手机各大App开屏广告的软件“李跳跳”宣布停止更新。这款跳过广告的软件,实际上是借助系统上无障碍权限实现:识别屏幕上“跳过”按钮的位置,再自动完成点击的动作。更早之前,有手机软件能自动帮用户抢红包,同样是基于无障碍权限的调用。
“李跳跳”和自动抢红包软件因调用无障碍权限而遭遇的拷问,这一次AI智能体也逃不过。
背离初衷是AI智能体厂商遇到的第一层质疑。无障碍权限的出发点,是让App通过该接口给残障人士提供便捷的服务,AI智能体显然超出该权限的原有设计目的。
2017年11月,谷歌邮件通知所有应用开发者:除非开发者能明确澄清App通过使用辅助功能服务,是用来帮助残障人士更好地使用安卓设备和应用,否则,将拒绝其使用该服务接口的请求,并将其应用程序从谷歌Play商店中移除。一位技术专家表示,谷歌的限制限于App层面,由于手机厂商自身可以充分个性化定制操作系统,谷歌无法监管手机厂商如何使用无障碍权限。
隐私风险是第二层质疑。当用户开启无障碍权限时,以小米为代表的手机厂商会弹出“危险”的红色警告标识,提醒用户授予App无障碍权限,用户的个人隐私信息可能会泄露,财产安全将受到威胁。
开启无障碍权限时,许多智能手机会弹出风险警告。
上海交通大学软件学院教授陈海波等人在一篇论文中写道,窃取用户隐私数据,是无障碍权限被开发者滥用的情形之一。一些应用通过无障碍服务,捕获到屏幕上的文本内容,然后通过网络传输出去,造成用户隐私信息的泄露,给用户带来巨大损失。
一位互联网合规人士进一步称,无障碍服务隐私风险突出表现为,可以读取屏幕文本内容,监视和记录用户的所有操作,其中有可能包括用户输入的敏感信息。
安全威胁是第三层质疑。前述互联网合规人士介绍,无障碍服务开启后,黑客攻击者可以自动授予恶意程序更高的权限,执行敏感的模拟点击,禁用安全软件或系统安全设置,从而降低移动智能终端的安全性。
南都记者实测发现,智谱AutoGLM初次安装打开后,会统一告知其需要获取设备的无障碍权限、悬浮窗权限、麦克风权限和录屏权限。执行具体指令任务前,AutoGLM还就无障碍权限单独获取授权,引导用户跳转至手机设置中的无障碍界面,手动开启该权限。开启时,手机系统会弹出提醒,告知AutoGLM需要借助无障碍权限中的具体功能:监测操作,在用户与应用互动时接收通知;检索窗口内容;开启触摸浏览;执行点按、滑动、双指张合等手势;截取显示画面的屏幕截图。当用户退出AutoGLM后台,无障碍权限随之关闭,直至再次启动时重新获取授权。
相比之下,荣耀AI智能体YOYO助理的权限获取,则较为隐蔽。南都1月中旬的实测发现,为了实现点外卖、给好友发微信文件等任务,YOYO助理离不开手机“情景感知”功能模块的参与,而“情景感知”功能模块又需要无障碍权限的支撑。然而,调用无障碍权限时,YOYO助理未告知且获得用户的单独授权同意,悄悄开启权限。而根据安卓官网的规定,无障碍权限必须由用户在设备设置中明确打开后才能启动。
截至发稿,荣耀方面未回复南都记者就YOYO助理权限调用问题的询问。
荣耀YOYO助理执行点咖啡任务时,“情景感知”功能模块自动开启了无障碍权限。
多位受访者表示,智谱作为第三方的AI智能体开发商,只能曲线借道,让用户开启无障碍权限去读屏和模拟点击。但手机厂商拥有更高的权限调用底层优势,“想获得什么信息非常简单,只不过是需要用户来点一下同意按钮”。快思慢想研究院院长、原商汤科技智能产业研究院院长田丰提到,手机操作系统可以预先设定底层操作权限,直接为内置AI智能体提供相关应用权限。
搭建隐私“防火墙”
敏感数据本地存储
敏感任务人为接管
当AI智能体像人类一样观察手机屏幕,获取上面的信息,能否打消萦绕在用户心中的隐私忧虑,事关AI智能体的应用普及。
在俞刚看来,隐私风险的高低,可以从AI智能体运行是否上云加以判断。如果是端侧运行,只要手机端上的数据不外泄,通常没有数据安全风险;但一旦数据传到云端,此时依赖于云端厂商对用户数据的保护是否到位。
多位技术专家指出,AI智能体在“自动驾驶”过程中的推理,目前仍高度依赖云端算力运行,端侧算力及内存尚难以支撑。王君阳介绍,即使云端运行,AI智能体的时延也只能做到秒级别,不能实现毫秒级别,达不到人类的操作速度。未来最理想的情况是端云协同。
去年11月底受访时,智谱CEO张鹏展望,未来智谱可能会开发一套统一的框架来解决数据隐私和安全问题,例如,通过在本地处理一些不涉及敏感信息的任务,而将更复杂的任务交给云端解决。
张鹏提出从技术演进的角度来应对隐私担忧:“先识别出(技术的)可能性,然后逐步解决伴随而来的问题。”
前述互联网合规人士则建议,除了数据本地存储,也应充分做到让用户知情同意,并提供关闭智能体服务的便捷渠道。
个人信息安全隐患面前,手机厂商和大模型公司筑起风控“防火墙”。实测发现,发红包、点外卖和预定机票场景下,AI智能体止步于付款交易前,留待用户本人输入密码,规避资金交易的敏感风险。
实测显示,部分AI手机智能体给微信好友发红包时,止步于输入密码前一步骤。
但外界担心的是,如果AI智能体的能力持续升级,又在手机界面上看到过银行卡账号、密码,会不会偷偷下单或转账?
面对这样一种“黑镜”式的情景,前述智谱人士称,智谱的AutoGLM不会执行和用户指令毫不相干的任务。“它像一位用户指令的翻译官,在翻译的时候或许出现偏差,但不可能触发跟指令毫不相干的情况”。
不过,有技术人士提醒,在被黑客劫持的情况下,如果不法分子下达了转账或者泄露隐私的指令,智能助手也可能变成手机里的木马软件,危害极大。
俞刚认为,由于智能体的安全隐患比较大,AI智能体运营厂商有必要对转账等任务采取安全控制,确保不是所有的指令都能操作。
AI智能体搅动商业博弈
绕开第三方App是否涉嫌不正当竞争?
站在普通用户角度,隐私安全是其核心关切。但让App厂商反弹情绪更大的是,走视觉路线的AI智能体公司,未经授权便调用各类应用软件。
“App厂商被智能体绕道走后门,直接开窗撬锁。”有第三方App厂商人士指摘,智能体随意调用另一个应用,获取应用的数据信息并进行操作,实际上架空了应用软件的安全机制,影响到运行模式。
另外,AI智能体也可能抢夺第三方App的商业利益。多位受访者认为,AI智能体的自动化操作,可能会波及第三方App的停留时长、广告推荐等获利模式,将原本的流量入口从App迁移至智能体,减少用户关注和使用App的频率。
AI智能体“自动驾驶”App,第三方App不一定能监测到。一位技术专家称,对于过于频繁的点击行为,一些头部App厂商可以对抗,多数中小型App厂商则存在难度。
王君阳在研究时发现,App有时会弹出验证码,这时,AI智能体基本上就放弃操作了,而人类使用App时则不会遇到。他猜测,部分App厂商可以通过一些操作特征来监测AI智能体的操作。例如,AI智能体每次点击的位置不偏不倚,人类可能出现偏差;再比如,AI智能体每次点按屏幕的时间是机械固定的,但人类的操作比较随意。
王君阳说,如果是输入数字验证码,现在的AI智能体已经有能力做到,只是对于精准滑动到某个位置的验证码,尚存在困难。他认为,随着AI智能体能力增强,第三方App的拦截方法将越来越有限,“双方进入了一个博弈阶段”。
博弈之下,前述第三方App厂商的人士站在不正当竞争的角度评价称,按照已有司法案例确立的原则推演,AI智能体运营公司获取第三方App用户数据时,除了获取用户同意,还少不了App厂商的授权。若AI智能体运营公司未取得App方面的授权,擅自收集、存储、使用App中的高度敏感信息(如聊天记录、行为轨迹、交易信息等),“其行为不符合一般意义上的商业道德,不具备正当性”。
“这本质上是新型产品、商业模式和既有产品、商业模式之间发生冲突的问题。”华东政法大学竞争法研究中心执行主任翟巍分析,AI智能体自主操控任务,既可能构成网络不正当竞争行为,又可能是合法的商业模式创新行为。对这类问题不能采取“一刀切”标准,而应当进行个案分析。
翟巍解释,如果第三方App厂商的营利机制是提供免费或低价的服务给消费者,同时利用由此获得的消费者关注度或注意力资源,吸引其他厂商购买其广告投放服务,那么AI智能体自主操控任务,可能使在第三方App投放的广告等无法触达真实的用户,从而破坏第三方App厂商合法的商业模式和营利机制。此种情形下,AI智能体厂商涉嫌不正当竞争。
翟巍续称,如果用户可以完全自愿选择是否使用AI智能体自主操控任务,并且AI智能体只是帮助消费者跳过了虚假广告、骚扰性广告,不会严重干扰第三方App厂商的商业模式和营利机制。那么,AI智能体就可能符合商业道德,构成合法的商业模式创新行为。
君益诚律师事务所顾问杨子江长期参与反不正当竞争法的研究工作。他向南都记者指出,评判一种商业行为能否构成不正当竞争,可以从是否损害其他经营者利益、消费者利益和市场竞争秩序三个维度分析。
杨子江说,第三方App的流量入口转移到AI助手,而且App本身的开屏广告、用户使用时长等营利机制均受到干扰,这很可能有损App厂商的利益。站在消费者角度而言,AI助手表面上提供了一些便利,但消费者享受的App服务并无实质增加,并可能存在用户隐私和数据风险。而且,长远来说也不一定增进消费者福祉。原因在于,利益受损的App,其产品研发和技术改进的激励会降低,并可能不再有更大的财力和人力去投入到产品研发中。AI助手未经授权利用现有App的功能去开展服务,如同寄生在这些App上搭便车,竞争秩序也可能因此被扭曲。
杨子江提醒,为确保合规,宣称第三方App零适配的AI智能体厂商,同样有必要获得第三方App公司的授权。
有从事互联网案件审理的法官指出,不正当竞争的认定,依然要根据不同AI智能体的具体表现予以个案判断,“考察其技术逻辑有没有不正当性,体现的不正当性造成了怎样的损害后果,是不是足以构成不正当竞争”。
该法官分析,总体上看,这类AI智能体并非就某一款App去开发,缺乏一定的针对性。在干扰App厂商广告等商业模式层面,智能体只是让用户未能真正看到App中的广告,而非将广告直接屏蔽。但就智能体获取App用户数据而言,是否经授权,有可能影响到案件结果。
“读屏+模拟点击”面临着各类合规隐患,这也让一些专家开始评估:何种AI智能体技术方案才值得长久推广?
田丰将屏幕视觉路线视为过渡方案。他认为,随着API接口生态更加健全,AI智能体可能会更多通过API接口调动底层功能,逐步减少对读屏和模拟操作的依赖。
出品:南都数字经济治理研究中心
采写:南都记者 杨柳 吕虹
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
发表新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
你你你你呀5
金牌会员
0
关注
0
粉丝
98
帖子
Ta的主页
发布
发消息
加好友
最近发表
小米首款米家中央空调Pro等智能家居新品外观公布,2月底发布
记者探访|跑步、做饭……人形机器人“十八般武艺”这样炼成
智能穿戴概念涨3.25%,主力资金净流入这些股
伊朗革命卫队在该国西南部举行军演 多种新型无人机亮相
心理治疗机器人能否抚慰人类心灵
宇树科技新四足机器人外观曝光
公社版块
版块推荐
更多版块
智能穿戴
智能家居
机器人
无人驾驶
无人机
反馈吐槽
闲聊灌水
大话智能
大数据
图像识别
自然语言
数据挖掘
大话智能
数据挖掘
北大讲座
清华讲座
网贷观察
股市评论
区块链
闲聊灌水
反馈吐槽
站务通知
关注我们