找回密码
 立即注册
搜索

机器学习在高德终点抓路中的运用实际

导读:高德地图作为中国抢先的出行范畴处理方案提供商,导航是其核心用户场景。道路规划作为导航的前提,是根据终点、终点以及途径策略设置,为用户量身定制出行方案。

终点抓路,作为道路规划的初始必备环节,其准确率对于道路规划质量及用户体验至关重要。本文将引见高德地图针对终点抓路准确率的提升,尤其是在引入机器学习算法模型方面所停止的一些探求与实际。

什么是终点抓路

首先,我们来简单引见一下什么是终点抓路。终点抓路是指针对用户发起的道路规划央求,经过获取到的用户定位信息,将其终点地位绑定至实践所在的道路。

从高德地图App可以看到,用户停止道路规划时选择终点的方式有以下三种:

1.手动选点(用户在地图上手动标注所处地位)。






2.POI选点(Point of Interest,兴味点,在地理信息系统中可以是商铺、小区、公交站等地理地位标注信息)。






3.自动定位(经过GPS、基站或WiFi等方式自动定位所在地位)。






三种方式中,用户手动选点及POI选点这两种方式的地位信息相对准确,终点抓路准确率相对较高。

而自动定位终点的方式,由于受GPS、基站、网络定位精度影响,定位坐标易发生漂移,定位设备抓取的地位与用户实践所处道路能够相差几米、几十米甚至几百米。如何在有限信息下,将用户准确定位到真实所在道路,就是我们所要处理的次要成绩。

为什么要引入机器学习

引入机器学习之前,终点抓路对候选道路的排序采用了人工规则。核心思绪是:以间隔为次要特征,结合角度、速度等特征,加权计算得分,进而影响排序,人工规则中所触及到的权重及阈值等是经综合实战阅历人工拍定而成。

随着高德地图业务的不断增长,规划央求数量及场景的增多,人工规则的局限性越来越分明,详细表如今以下方面:
    即便包含了众多阅历在内,人工设定的阈值、权重仍不够完善,易发生偏移或存在盲区是不可改变的理想。策略维护方面,面对下游数据的更新,新特征无法用最疾速度加入到策略中。人工规则拍定对阅历要求较高,对于人员的更迭,很难做出最矫捷的呼应。

在大数据和人工智能时代,应用数据的力气代替部分人力工作,完成流程的自动化,提高工作效率是必然趋向。

因此,基于终点抓路人工规则的现状及成绩,我们引入了机器学习模型,自动学习特征与抓路结果之间的关系。一方面,拥有大量规划及实走数据,对于机器学习模型的训练数据获取,高德有自然优势;另一方面,机器学习模型有更强的表达力,可以学习到特征之间的复杂关系,提高抓路准确率。

如何完成机器学习化

回归机器学习本身,下面来引见我们如何建立终点抓路机器学习模型。普通来讲,运用机器学习方法处理实践成绩分为以下几个方面:
    目的成绩的定义数据获取与特征工程模型选择模型训练及效果评价

1.目的成绩定义

在引入机器学习模型之前,需求将待处理成绩停止数学笼统。

分析终点抓路成绩,如上图所示,我们可以看到当用户在A点发起道路规划央求时,其定位地位A所对应的周边道路是一个独立的集合B,而用户所在的实践道路是这个集合中的唯逐一个元素C。

这样,终点抓路成绩转化为在定位点周边道路集合中选出一条最有能够是用户实践所在的道路。

整个过程相似搜索排序,因此,我们在制定建模方案时也采用了搜索排序的方式。
    提取用户道路规划央求中的定位信息A。对定位点周边一定范围内的道路停止召回,组成备选集合B。对备选道路停止排序,最终排在首条的备选道路为模型输入结果,即用户实践所在道路C。

最终,我们将终点抓路定义为一个有监督的搜索排序成绩。明白了需求达到的目的,我们末尾思索数据获取及特征工程成绩。

2.数据获取与特征工程

业界常言,数据和特征决议了机器学习的下限,而模型和算法只是逼近这个下限。可见对于项目最终效果,数据和特征至关重要。

训练终点抓路机器学习模型,我们需求从原始数据中获取两类数据:
    真值数据,即用户发送道路规划央求时实践所处道路信息。

机器学习运用于终点抓路项目,第一个成绩就是真值数据的获取。用户在某个地位A发起道路规划央求,由于定位精度限制,我们无法确认其实践所在地位,但假如用户在发起规划央求附近有实走信息,可以将实走信息婚配到路网生成一条运动轨迹,经过这条轨迹我们就可以获取到央求定位点所处的实践道路。

我们针对高德地图的导航央求数据停止相关发掘,将用户实走与道路规划信息相结合,得到了央求与真值逐一映射的数据集。
    特征数据

在终点抓路模型中,我们提取了三大类特征用于构建样本集,分别是定位点相关特征、道路本身特征以及定位点与道路之间的组合特征。

特征处理是特征工程的核心部分,不同项目在停止特征预处理时会有不同,需求根据实践业务场景停止特殊化处理,往往依赖于专业范畴阅历。终点抓路项目中,我们针对定位特征停止了样本去重、异常值处理、错误值修正及映射等数据清洗工作。

3.模型选择

在目的成绩定义中,我们将终点抓路分析为搜索排序成绩,而机器学习的ranking技术,次要包括point-wise、pair-wise、list-wise三大类。

根据终点抓路业务特点,我们采用了list-wise,其learning to rank框架具有以下特征:
    输入信息是同一道路规划央求对应的一切道路构成的多特征向量(即一个query)。输入信息是对应央求(即同一query)特征向量的打分序列。对于打分函数,我们采用了树模型。

我们选择NDCG(Normalized Discounted Cumulative Gain 归一化累积折算信息增益值)作为模型评价目的,NDCG是一种综合思索模型排序结果和真实序列之间关系的目的,也是常用的衡量排序结果的目的。

4.模型训练及效果评价

我们抽取了一定工夫段内的央求信息,按照步骤2中描画的方式获取到对应真值及特征数据,打标构建了样本集,将其划分为训练集与测试集,训练模型并查看结果能否符合预期。

评价模型效果,我们将测试集的央求分别用人工规则及机器学习模型停止抓路,并分别与真值停止对比,统计准确率。

对比结果,针对随机抽取的央求,模型与人工规则抓路结果差异率为10%,这10%的差异群体中,模型抓路准确率比人工规则提升40%,效果分明。

写在最后

以上我们引见了大数据和机器学习在终点抓路方面的一些运用,项目的成功上线也验证了机器学习在提升准确率、优化流程等方面可以发挥重要作用。

将来,我们希望可以将现有模型场景继续细化,寻觅新的收益点,从数据和模型两个角度共同探求,持续优化机器学习抓路效果。

关注高德技术,找到更多出行技术范畴专业内容K码农提供了很多不同范畴技术

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

眨眼泡泡鱼 2019-10-10 08:00:52 来自手机 显示全部楼层
小白一个 顶一下
回复

使用道具 举报

凭栏半日独无言 2019-10-11 07:19:03 来自手机 显示全部楼层
话不多说,【抱拳了,老铁】。
回复

使用道具 举报

疯了的老李 2019-10-12 07:44:15 来自手机 显示全部楼层
非常看好未来的发展!
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies