jiangdaike 发表于 3 天前

中移申请基于视觉大语言模型的网页导航专利,解决图形用户界面图像识别定位准确性差

金融界2025年3月18日消息,国家知识产权局信息显示,中移(苏州)软件技术有限公司、中国移动通信集团有限公司申请一项名为“基于视觉大语言模型的网页导航方法、装置、介质及产品”的专利,公开号CN 119622126 A,申请日期为2024年12月。

专利摘要显示,本申请实施例提供一种基于视觉大语言模型的网页导航方法、装置、介质及产品。该方法包括:接收用户需要导航的总任务信息,确定总任务信息所关联的第一信息;将第一信息输入至子任务预测的第一视觉大语言模型中,获得第一视觉大语言模型输出的需要执行的下一个子任务;获取下一个子任务关联的第二信息将第二信息输入至步骤预测的第二视觉大语言模型中,获得第二视觉大语言模型输出的子任务所对应的当前执行动作和下一执行步骤信息;在下一执行步骤信息指示子任务执行完成的情况下,返回步骤二,直至第二视觉大语言模型输出的所有子任务完成为止。本申请的方案可以解决图形用户界面图像识别定位准确性差的问题。

天眼查资料显示,中移(苏州)软件技术有限公司,成立于2014年,位于苏州市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本317200万人民币,实缴资本10000万人民币。通过天眼查大数据分析,中移(苏州)软件技术有限公司参与招投标项目5000次,财产线索方面有商标信息98条,专利信息2290条,此外企业还拥有行政许可23个。

本文源自金融界

Leery_R 发表于 前天 07:14

介是神马?!!

同桌的她 发表于 昨天 12:25

发发呆,回回帖,工作结束~
页: [1]
查看完整版本: 中移申请基于视觉大语言模型的网页导航专利,解决图形用户界面图像识别定位准确性差