找回密码
 立即注册
搜索

论文引荐 | 吴华意:出租车轨迹数据发掘停顿

《测绘学报》

构建与学术的桥梁 拉近与威望的间隔

出租车轨迹数据发掘停顿

吴华意1, 黄蕊1, 游兰2

, 向隆刚1


1. 武汉大学测绘遥感信息工程国家重点实验室, 湖北 武汉 430072; 2. 湖北大学计算机与信息工程学院, 湖北 武汉 430062

收稿日期:2019-05-27;修回日期:2019-08-30

基金项目:国家自然迷信基金(41771474)

第一作者简介:吴华意(1966—), 男, 教授, 研讨方向为地理信息分析与发掘。E-mail:wuhuayi@whu.edu.cn

通讯作者:游兰, E-mail:yoyo@hubu.edu.cn

摘要:大数据、物联网与精细定位技术的发展推进了城市感知的提高。随着社会活动的日积月累,出租车轨迹数据不只记录了出租车的行车轨迹,还蕴藏着道路交通形状、城市居民出行规律、城市结构及其他社会成绩。经过各种数据分析与发掘手腕对出租车轨迹数据停止深化探求,对于智能交通、城市规划等有着重要意义。本文综述了近十年国内外基于出租车轨迹大数据的相关研讨,按照空间统计方法、工夫序列方法、图论与网络方法及机器学习方法等4类,详细阐述各类方法的研讨现状。随后,本文分析了现有研讨的运用范畴、热点主题和发展趋向。最后,本文指出了出租车轨迹数据发掘研讨范畴面临的应战和将来研讨方向。

关键词:轨迹数据 数据发掘 出租车轨迹 综述

Recent progress in taxi trajectory data mining

WU Huayi1, HUANG Rui1, YOU Lan2, XIANG Longgang1

1. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430072, China;2. School of Computer Science and Information Engineering, Hubei University, Wuhan 430062, China

Foundation support: The National Natural Science Foundation of China (No. 41771474)

First author: WU Huayi(1966—), male, professor, majors in geographic information analysis and mining. E-mail:wuhuayi@whu.edu.cn.

Corresponding author: YOU Lan, E-mail: yoyo@hubu.edu.cn.

Abstract: The development of big data technology, internet of thing and precise positioning has promoted the progress of city perception. The increasing taxi trajectory data not only records the pathway of taxis, but also implies the real-time traffic status, the information of urban dwellers' travel rule, urban structure and potential social problems. It is of great significance to mine and analyze the taxi trajectory data for smart transportation, urban planning etc. This paper reviews the field of taxi trajectory data analysis and applications in the past ten years. From the perspective of research methodology, four categories are identified:spatial statistical, time series analysis, graph and network analysis, and machine learning. Each category is reviewed with its current research situation, advantages disadvantages. Later on, applications, hot topics and future trends of taxi trajectory analysis are summarized to four areas including traffic management, resources and environmental protection, city planning, and human mobility. Finally, the current challenges and the future research directions in the field of taxi trajectory data mining are proposed.

Key words: trajectory data data mining taxi trajectory review

近年来随着物联网感知与高功能计算技术的不断发展,大规模城市感知数据遭到了各个范畴的广泛关注。作为最重要的一个数据类型,轨迹数据隐含了丰富的城市信息,往往规模宏大且来源广泛。轨迹数据次要包括人类活动轨迹数据、交通轨迹数据、动物活动轨迹数据和自然现象轨迹数据[1]。这些轨迹数据的时空尺度与粒度各有不同,分别适用于不同研讨。其中人类活动轨迹数据与交通轨迹数据是与人类日常生活联络最严密的两类轨迹数据,因此有大量研讨围绕他们展开。

人类活动轨迹数据,包括微博签到数据、Flickr照片数据、手机基站定位数据、信誉卡消费数据、手机GNSS定位数据等,按照工夫顺序跟踪这些地位记录就构成关联人在一段工夫内的移动轨迹。这类轨迹数据精度不高,通常在200 m左右[2],而且大多触及个人隐私,并没有得到广泛的运用,普通在研讨中作为辅助数据用于丰富语义信息。

交通轨迹数据包括两类:一类是经过固定设备采集得到的数据,如城市道路卡口照片、视频监控数据、地铁刷卡数据等;另一类是经过车载GNSS设备采样得到的交通工具移动轨迹,如公交车轨迹数据、出租车轨迹数据、船只轨迹数据等。这其中,固定设备数据只能粗粒度地描画人群或车辆在不同固定地位之间的移动,覆盖范围有限;公交车轨迹数据也只能记录运营工夫内公交车的固定道路轨迹。出租车不受线路和工夫的约束,是最灵敏、覆盖范围最广的轨迹数据,且精度较高、较少触及隐私成绩,常被作为轨迹数据研讨和运用的次要数据集。

出租车轨迹数据不只反映城市道路的交通形状,还折射出隐含的城市成绩与应战。经过轨迹数据发掘可以协助乘客了解出行信息[3-6]、为司机引荐导航道路[7-8]、改善出租车的运营管理[9-12]。同时,轨迹数据与其他社会、经济、人口数据的关联分析,能发现城市人口活动形式[13-16]、社会活动动态[17-18]、动力耗费分布[19-20]及环境污染状况[21-22]等,协助提高城市管理决策程度。

近年来,围绕出租车轨迹数据发掘展开了大量研讨,并获得了丰盛的成果。同时,随着滴滴出行、Uber等新型出行方式的兴起,以及神经网络与深度学习方法的热潮,出租车轨迹数据发掘范畴正面临着严重机遇和应战,有必要对该范畴的研讨现状停止梳理总结。为此,本文综合分析近十年来出租车轨迹数据发掘方向的研讨成果,从研讨方法与研讨运用两个维度对出租车轨迹数据发掘研讨成果停止分析,试图描画出该范畴的发展历程与研讨前景,以期为轨迹数据发掘等相关范畴学者提供参考。

本文首先从空间统计、工夫序列、图论与复杂网络及机器学习4类研讨方法阐述出租车轨迹数据发掘范畴的研讨现状;其次从智能交通、环境与资源保护、城市规划及社会感知4个运用方面来归纳分析该范畴的最新停顿;最后讨论该范畴目后面临的次要成绩和有待探求的研讨方向。

1 出租车轨迹数据1.1 数据内容

原始的出租车轨迹数据集本质上都是出租车轨迹点集,由多行采样记录构成,每条记录代表一个轨迹点,包括出租车编号、工夫戳、经纬度坐标、速度和方向等基本行驶数据,部分数据集还会记录载客形状、车辆类型等信息。从数据集中抽取出以车为单位的轨迹点序列,就构成轨迹。此外,出租车轨迹在一些特殊场合,也经过二维曲线或关键地位序列如路段编号字符串、交通格网编号序列等来描画。

具有不同属性特征的轨迹适用于不同研讨主题,如载客轨迹与空载轨迹常被用于人群移动[14, 17]、出行形式[23-24]和运营策略[25]等研讨;低速行驶轨迹可以用于发现交通拥堵现象[26];异常轨迹能作为评价司机驾驶行为[27]或感知交通突发事情[28]的根据。

1.2 数据特点

(1) 覆盖范围广。出租车轨迹数据在工夫和空间尺度上的覆盖范围比其他交通轨迹数据更广。出租车运营工夫可达全天24 h,而且出租车行驶在城市交通路网中,不受线路制约。如图 1所示,武汉市一天的出租车轨迹数据可覆盖城市中心路网的80%以上。


图 1 武汉市一天的出租车轨迹数据覆盖范围Fig. 1 Road network coverage of one-day taxi trajectories in Wuhan

图选项

(2) 采样密度高。出租车轨迹数据的采样间隔普通在1 min以内,部分数据集可达到3 s以内,能残缺地记录出租车的行驶途径,具有时空序列性和延续性。

(3) 地位精度高。出租车轨迹数据是经过车载GNSS采集获得的出租车地位数据,其精度较高,普通为5~20 m[2]。同时由于出租车一直行驶在城市路网中,因此可以经过地图婚配等方法进一步提高数据的地位精度[29]。

(4) 数据规模大。由于城市出租车数量多、运营工夫长、采样密度高,因此出租车轨迹数据集往往规模庞大,中心城市如武汉等一天就可产生200多万条出租车轨迹数据记录。而滴滴出行等商业平台每日新增轨迹数据就超过106 TB,每日处理数据更是达到4875 TB[30]。

(5) 包含信息丰富。出租车轨迹数据中记录的最直接信息是出租车在每个工夫点的地位坐标,这些延续坐标点描写了出租车在一段工夫内的移动轨迹。移动轨迹表现出租车司机的运营特征,包括寻客策略[11]、途径选择偏好[31]、载客范围[10]或欺诈绕路现象[27]等。

出租车在城市交通中所占比重较大,达到总交通流的20%左右,在一些关键区域甚至可以达到50%[32]。国家交通运输部发表的《2018年交通运输行业发展统计公报》表明,2018年出租车客运量达到351.67亿人。因此,出租车速度和密度等属性一定程度上可以反映城市交通流和人群移动的全体状况,从而用于估计或预测通行工夫和交通流量、监测交通拥堵状况[4-6],并结合POI数据停止城市规划结构、用地分类[33-35]等的进一步探测。

1.3 数据预处理

原始的出租车轨迹数据多存在异常点、噪音点、轨迹点漂移等成绩,因此在对数据停止发掘分析之前通常要对数据预处理。出租车轨迹数据预处理过程包括数据清洗、地图婚配、数据轨迹化与轨迹划分、质量评价4个部分。

数据清洗次要是为了剔除数据中的异常点和噪音点,其中卡尔曼滤波[36]、粒子滤波[37]等都是常用的数据清洗方法。而地图婚配的目的是要将出租车轨迹点准确地婚配到城市路网上。现有的地图婚配算法可分为确定性地图婚配算法与不确定性地图婚配算法两大类[29],详细有投影算法[38]、概率统计算法[39]、模糊逻辑算法[40]、相关性分析算法[41]等。数据轨迹化则是将原始的出租车轨迹点数据转化为线数据的方法。基本思想是将每辆出租车的延续GNSS采样点按照工夫顺序先后衔接起来,映射到地图上即得到一条与道路地图相婚配的有向曲线[42]。出租车轨迹数据质量评价方面可分为两部分,一是对出租车轨迹数据定位精度停止评定;二是出租车与真实的交通流之间存在密度与速度[43]上的差异,这些差异会导致最终交通流计算或预测结果中存在误差[44],因此还需求对出租车轨迹数据的计算精度停止评定与校正。

1.4 开放数据集

目前经过互联网可收费获取到许多公开出租车轨迹数据集。如微软T-Drive项目提供的2008年北京出租车一周内的轨迹数据[45];纽约Taxi & Limousine Commission(TLC)官方网站发布的纽约市出租车轨迹数据集[46],工夫区间为2009—2018年,可以月为单位下载所需的数据;CRAWDAD是达特茅斯学院的一个无线数据资源网站[47],包含了大量出租车轨迹数据集,如旧金山海湾地区500辆出租车30 d内的轨迹数据、上海4000辆出租车在2007年2月20日这一天内24 h的轨迹数据、罗马郊区320辆出租车在2014年2月1日至3月2日一个月内的行驶数据等;滴滴出行经过盖亚数据开放计划向研讨者收费开放了部分网约车数据[48],目前已提供西安市和成都市2016年的部分轨迹。

2 研讨趋向分析

出租车轨迹数据发掘相关研讨的历史最早可追溯至1999年,第3代蜂窝通讯网络与基于地位的服务(LBS)在这一时期末尾兴起,如图 2所示。移动特性的知识对规划、设计和运转通讯网络具有重要意义,因此研讨者们应用全球定位系统(GNSS)测定一段工夫内出租车的地位数据,来评价物体的移动特性[49-50]。之后这些出租车轨迹数据末尾被尝试用于估计路段速度[51]、停止出租车调度[52]和监测交通排放量[53]等智能交通与环境保护方面。


图 2 1999—2019年出租车轨迹数据发掘范畴文献数量Fig. 2 Numbers of publications on taxi trajectory data mining from 1999 to 2019

图选项

在2011年第十三届普适计算国际会议上,文献[54]提出应用出租车轨迹数据检测城市规划中的缺陷。此后,应用出租车轨迹数据发现并评价城市规划结构的研讨成果末尾大量涌现,如发现城市中的功能区域[55]、辨认城市土地应用分类[34, 56]、评价城市交通系统应对突发事情的才能[10]等。基于出租车轨迹数据停止城市动态研讨的文献在同一时期末尾出现,如文献[57]以北京1万多辆出租车为研讨对象,对人类移动行为建模分析;文献[13]基于上海158万条出租车轨迹数据,辨认城市居民出行形式;文献[58]从葡萄牙里斯本5个月的出租车轨迹数据中发现城市活动规律等。

总的来说,出租车轨迹数据发掘范畴在2011—2012年间发生了严重变化,出现了两个新的研讨方向:一是城市规划,指应用出租车轨迹数据发现、辨认并评价静态的城市规划和城市结构;二是社会感知,指基于出租车轨迹数据对城市内人群活动的动态变化、移动形式停止分析和监测。这时期出现的一系列重要成果彻底改变了之前出租车轨迹数据只能在交通范畴内得到运用的状况,出租车轨迹数据发掘范畴进入新的发展阶段。

智能交通、资源与环境保护两个运用方面贯穿出租车轨迹数据发掘范畴一直,尤其智能交通方面,是出租车轨迹数据的直接运用范畴,直至如今也是每年发表研讨成果数量最多的方向,如图 3所示。城市规划和社会感知虽然都是于2011年前后末尾起步,但这两个方面的联络较为严密,城市规划结构可以看作是社会感知研讨的基础,因此城市规划方面相对来说得到了更多的关注和发展,但近年来社会感知研讨也末尾出现上升的趋向。


图 3 2008—2019年出租车轨迹数据发掘研讨数量的运用范畴分布Fig. 3 Application distribution of researches on taxi trajectory data mining from 2008 to 2019

图选项

空间统计、工夫序列、图与复杂网络等传统的分析发掘方法是该范畴早期的次要研讨方法,如图 4所示。空间统计方法适用范围广,能处理多种类型的成绩,如热点区域发现、通行工夫估计、预测等。工夫序列方法次要用于出租车轨迹数据的频繁形式发掘与相似性度量。图与复杂网络方法则是对基于出租车轨迹数据抽取出的网络结构如道路网、市民出行网等停止网络相关特性的发掘分析。值得留意的是,从2014年末尾,由于计算机处理才能和硬件设备的提升,机器学习中的神经网络与深度学习方法重新吸引了各范畴迷信家的目光,也末尾被用于出租车轨迹数据发掘范畴中预测通行工夫、打车需求等成绩。


图 4 2008—2019年出租车轨迹数据发掘研讨数量的研讨方法分布Fig. 4 Methodologies distribution of researches on taxi trajectory data mining from 2008 to 2019

图选项

2014—2015年可看作是出租车轨迹数据发掘范畴的第2个分界点。从2014年至今,出租车轨迹数据发掘范畴都依然处于转型过渡阶段。这一时期,除了引入神经网络与深度学习方法外,更重要的是出现了滴滴出行、Uber、共享单车等新型出行方式。《中国共享经济发展年度报告(2019)》表明,网约出租车客运量占总出租车客运量的比重达到36.3%,这对传统出租车行业形成了一定冲击。许多城市的出租车公司与滴滴出行合作,传统出租车也能经过在线接单来寻客,因此出租车行业全体的运营方式也改变了。出租车行业的宏大转变与前沿技术的发展,对出租车轨迹数据发掘范畴,既是机遇也是应战。

一方面,基于滴滴平台获得的网约出租车轨迹数据比传统出租车轨迹数据的采样密度更高,达到1~3 s一个轨迹点;采集精度更高,由于滴滴根据行驶轨迹计费,GNSS数据与实践行驶途径婚配准确率可达到100%;覆盖范围更广,以北京为例,62%的滴滴网约车终点或终点位于城市边缘公共交通覆盖不足地区,且包含大量跨城轨迹[59]。这为出租车轨迹数据发掘研讨提供了质量更高、更具代表性的数据源。

另一方面,滴滴网约车与传统出租车之间因其行业背景不同而存在差异。例如,次要寻客方式由过去的巡游寻客变为在线派单,滴滴网约车本身存在专车、慢车、出租车和顺风车等多种运营方式,这些要素影响行车阅历发掘、载客点引荐等成绩的结果。此外,神经网络与深度学习方法的运用尚未深化。在处理不同成绩时应该怎样选择网络?在运用不同网络时又应该怎样选择出租车轨迹数据的输入方式?神经网络与深度学习对轨迹数据来说能否真的适用?这些成绩都还未得到残缺解答。从图 2可看到,2017年后出租车轨迹数据发掘研讨的文献数量有所回落,这一定程度上表示出租车轨迹数据发掘范畴渐渐末尾进入新的瓶颈期,需求进一步探求新型前沿技术在该范畴的运用,以及与多源数据的结合分析。

近年来,部分学者发表了出租车轨迹数据发掘综述成果,为本文方法和运用综述研讨奠定了一定基础。文献[60]从社会动态、交通动态和行为动态3方面来对出租车轨迹研讨停止分析总结;文献[61]以城市计算为出发点,综述出租车轨迹数据在城市感知和规划方面的运用;文献[62]总结了出租车轨迹数据在交通形状分析、运营管理及支持和途径规划及预测等智能交通方面的研讨。这些研讨综述的角度有所不同,各有侧重。本文综述研讨的重点是出租车轨迹数据发掘与分析的实际和方法,以及总结该范畴研讨主题变化趋向和应战。在出租车轨迹数据范畴面临转变的背景下,本文旨在梳理出租车轨迹数据发掘研讨的现状,同时思索将来能够的发展趋向,为广大研讨人员掌握现有研讨状况、定位和规划将来研讨方向提供参考。

3 出租车轨迹数据发掘方法

多年来,各个范畴的学者都不断试图从出租车轨迹数据中发掘出新的知识与阅历,所触及的实际与方法覆盖多个学科,采用的次要方法可以归纳为4类:空间统计、工夫序列方法、图论与复杂网络及机器学习。

3.1 空间统计

空间统计方法能直观地协助研讨者获得数据集的全体分布特征,从而选择相应的统计模型对轨迹数据停止后续分析。因此,空间统计方法是运用最多最广泛的基本数据发掘技术,它可以作为独立的方法对轨迹数据停止分析,也可以作为后期的数据处理方法为后续的研讨提供根据。

3.1.1 探求性空间分析

探求性空间数据分析方法的特点是对数据集的总体不作假设,而是运用统计图表、图形和统计概括等探求性、描画性的方法对数据的特征停止分析和描画[63]。在面对出租车轨迹数据时,数据的全体特征对研讨者来说往往是未知的。采用该类方法可以获得数据集的全体统计特征,计算得到载客里程、载客工夫、载客数、上下客点数、行驶速度、换乘工夫间隔等统计量,协助发现时空分布规律,进而建立统计模型处理相应成绩。

例如,司机支出这一统计量通常被作为衡量司机寻客策略有效性的标准[64-67]。在此基础上,经过跟踪高支出司机的行车轨迹,可以为其他出租车司机引荐载客点和提供行车指点[11, 25, 68-69],从而提高出租车服务质量和司机支出程度。

除了对出租车行业本身的探求与评价之外,部分研讨综合思索公交站点分布[70]、网约车服务[71-72]、天气[9]等外界要素从而进一步发掘出租车行为规律。在统计量的基础上停止简单计算能粗略估计城市道路交通状况和交通包容量[3, 73-75],提取居民出行与移动的规律[23, 57, 76]。基于与道路网和社会经济数据的结合分析,可以探测城市功能区域和土地应用规划[56, 77]、估计城市汽油耗费和尾气排放总量[19, 20, 78]。

探求性空间分析方法能协助简单、直观地把握整个数据集的特征,但结果都是比较概括性的结论,容易遭到数据处理过程中的误差影响,不能充分发掘轨迹数据的价值。

3.1.2 空间聚类

空间聚类方法是数据发掘范畴的关键技术之一。根据聚类对象的不同,出租车轨迹数据的空间聚类方法可分为点聚类方法和轨迹聚类方法。

点聚类方法次要是对出租车轨迹数据中的点数据停止空间聚类,包括出租车的GNSS采样点、停留点或者是上下客点。常用的聚类算法有k-means算法和DBSCAN算法。聚类分析的结果直观简明,能直接从结果中发现特定的出租车行为规律。例如,经过对出租车上下客点停止点聚类能获得抢手上下客区域,从而向出租车司机引荐最佳载客点[79-81]。下客点聚类结果反映了市民出行偏好,可辅助城市规划规划[16, 34, 82]。道路网中大量低速聚集形状的出租车集群是道路拥堵现象的表现,因此,经过道路低速点聚类能对城市道路拥堵形式停止估计和分析[83-84]。文献[85]还基于空间聚类提出一种城市交叉口自动辨认方法,为城市交通路网部分结构的探测提供了新途径。

点聚类得到的结果通常是要素聚集的面状区域,但在数据量较大时,难以疾速辨认出不规则外形的聚类簇。同时,如何确定具有多重属性的点数据相似系数也是目前难点之一。如文献[86]针对现有算法在出租车载客热点区域提取结果的不足,提出一种顾及路网约束的改进DBSCAN算法,将道路拓扑关系与路段长度数据加入聚类算法的相似性度量中。

轨迹聚类是对出租车行驶轨迹停止聚类,得到的结果是具有相似形状且聚集的轨迹簇。例如,对下客热点到上客热点之间的轨迹停止聚类,得到最具有寻客潜力的最优途径[87]。或者,跟踪特定区域间的下客轨迹,从而辨认出城市交通流向规律[88]。此外,文献[26]基于相似轨迹聚类的思想提出拥堵同伴的概念和发现算法,挑选出能够发生拥堵的浮动车数据,进而对拥堵区域的变化趋向停止预测。

轨迹聚类的难点是如何定义轨迹在时空维度上的相似性度量,基于全体的轨迹聚类会忽略子轨迹的细节信息,而基于分段的轨迹聚类会分割轨迹,使一条轨迹分属于多个聚类簇。从聚类准确度出发,多数研讨者以为基于分段的轨迹聚类方法粒度更细、准确度更高。

3.1.3 空间回归分析

空间回归分析是定量描画空间数据之间关系的常用方法。出租车轨迹数据记录了出租车的行驶道路,在空间分布上具有分明的空间异质性,并与社会经济要素和城市规划规划严密相关;同时,也受城市居民的出行规律影响,在工夫上表现出分明的周期性。因此,空间回归分析方法常被用来拟合并预测出租车客流量,并量化分析乘客需求与社会经济要素、环境质量之间的关系。

例如,各种回归模型被用来拟合出租车上客点的数量分布[89],再对热点地区乘客的时空变化和等待工夫停止预测[10, 90-92]。或者,应用地理加权回归模型来描写出租车的空间异质性[93],并将客流量与社会人口和建筑环境变量关联起来。

空间回归分析能准确地描写因子之间的相关性和拟合程度,但其运用范围会遭到回归模型假设条件的限制,且模型的构建通常是一个探求性的过程,因此结果依赖于研讨者对因子的选择和表达。

3.1.4 密度分析

密度分析是用来计算整个研讨区域内数据聚集状况的方法,应用团圆的点(线)生成延续的曲面,从而发现要素较为集中的区域,包括普通的点(线)密度分析方法和核密度分析方法。

普通的点(线)密度分析对落入搜索区域的点或线停止求和,计算区域单位面积内的元素数量。出租车停留点密度能作为有效估计区域内打车需求与出租车充电需求[94-95]的目的、提取城市热点区域和人们出行规律[35]的根据;同时,跟踪出租车停留点密度变化过程可以探测城市中上下客事情的冷热点集群变化规律[17, 96]。这种方法的局限在于会导致网格边缘出现过大落差,也就是“断崖”现象。

核密度分析方法中,落入搜索区的点具有不同的权重,分析的结果是平滑、延续的表面,避免了普通的点(线)密度分析中“断崖”的出现。经过核密度分析方法能提取出租车集聚的热点区域[97]、分析出租车行为的时空分布形式[98]。与普通密度分析方法相比,核密度分析方法提取的区域边界更平滑、更合理,但由于带宽的设置会直接影响结果的好坏,因此根据数据集的特点选择合适的带宽是该方法的关键。

3.1.5 其他方法

除了上述方法之外,还有大量研讨运用基于空间统计实际的其他方法来发掘出租车轨迹数据,如应用OD矩阵分析[15, 99]、隐马尔可夫模型[100]、团圆选择模型[31]等对出租车上下客行为停止建模预测,经过图像处理方法从出租车轨迹数据中提取路网结构[101]等。另外统计检验方法[102]、基于证据实际的方法[103]、主成分分析方法[28]等也逐渐遭到人们的关注。总之,空间统计方法种类众多,所运用的研讨范畴也涵盖甚广,但运用时多受前提假设的限制,是一类基础而又需慎重运用的方法。

3.2 工夫序列方法

工夫序列数据反映了一类事物或现象随工夫的变化形状或程度。出租车轨迹数据可以看作是按照一定工夫间隔经过定位设备采样得到的工夫序列数据,因此部分研讨应用工夫序列方法的思想对出租车轨迹数据停止分析。

例如,文献[104]运用PrefixSpan的思想搜索轨迹的频繁形式子序列,并构建一个频繁轨迹图模型,该模型能计算得到最佳打车引荐结果。文献[105]对GSP算法停止改进以应对大规模轨迹数据,发掘出租车频繁轨迹特征[106],从而分析出租车司机的驾驶阅历与行为形式,并为其他司机提供途径规划。

相比轨迹数据,工夫序列数据的相似性度量要简单得多,因此有部分研讨首先将轨迹数据转换为工夫序列数据,再对其停止轨迹聚类,从而探测十字路口[107]和道路网变化[108]、发掘司机行为规律[109]等。但其缺陷在于转换过程中会损失信息,且工夫序列方法是用于分析一维数据的方法,在运用于二维数据的过程中存在许多限制。

3.3 图论与复杂网络

出租车轨迹数据可以看作是城市道路网的映射,可以从中提取出城市道路网的主干结构。同时,由于出租车轨迹数据记录了居民出行途径,将出行热点区域作为节点,区域间的交通轨迹作为边,可以构建乘客出行网络图。应用从轨迹数据中提取出的图和网络特性,经过图论与复杂网络相关方法能处理更多特定成绩。

3.3.1 途径搜索方法

途径搜索方法是处理在图或网络中怎样按照特定的规则从一个顶点到达另一个顶点成绩的一类方法,实践运用时通常先构建交通道路网,再遵照长度最短或工夫最短的条件在道路网中计算最佳途径,最后将计算的结果引荐给司机,为司机提供途径规划和导航[110-113]。例如文献[7]基于k-最短途径算法提出了一种具有负载平衡分配的时空轨迹模型,该模型为出租车司机提供引荐点间的最短道路。最短途径搜索可以提供理想状况下的途径参考,但是在理想状况下,间隔最短的途径不一定是司机第一选择的途径,还遭到许多环境要素的影响如道路拥堵、交通限速等,同时也依赖于道路网构建合理与否。

3.3.2 可达性衡量方法

在城市道路网络中,可达性指的是道路网中从一个区域到达某个特定区域的容易程度,是评价城郊区域和道路网规划能否满足市民需求的目的[114-115]。如文献[116]构建了两个矩阵模型来分别表示每条轨迹的起讫网格和经过的网格坐标,并采用基于地位的可达性衡量法对研讨区域的城市规划停止评价。这类方法要求研讨者对城市规划和交通规划有比较深入的看法,充分了解可达性的外延与类型,同时思索各个目的的假设条件限制。

3.3.3 社区发现方法

社区发现方法是用于发现复杂网络中的社区结构的一种算法,社区是一个子图,而整个网络可以看作是由多个社区构成的。其中社区内节点与节点之间的衔接很严密,而社区与社区之间的衔接比较稀疏,因此社区发现方法与聚类方法有一定的相似性。社区发现方法可以探测道路网、市民出行OD网络的子结构,并分析评价城市结构与空间的互相作用,跟踪其动态演化过程[33, 117]。如文献[118]基于出租车轨迹数据,把空间单元看作节点,人类运动流看作边,建立了空间嵌入式网络模拟城市外部空间互动。目前社区发现方法所研讨的对象已不局限于静态单一的网络,如何在多形式、多维度网络当中处理不同形式及维度下的信息交融、共享及动态演化是该方法的最大应战。

3.3.4 中心性分析方法

中心性(centrality)是量化断定网络中节点重要性的目的,道路网的中心性评价结果可以用以估计城市交通流量并分析城市路网的结构特征[4, 119]。常见的中心性目的有度中心性、介数中心性和PageRank中心性等,如文献[120]首先评价了道路网的中心性对交通量的预测才能,然后提出了基于现有中心性测度的扩展方法。但现有的大部分中心性目的都是针对静态网络的,自然界中的复杂系统本质是不断变化,面向动态复杂网络的中心性度量还有待进一步研讨。

3.4 机器学习

随着近年来人工智能技术的发展,机器学习遭到了各个范畴的广泛关注。在出租车轨迹数据发掘中,机器学习方法自发、自动的特征学习过程满足了轨迹数据发掘的需求,同时,轨迹数据其规模宏大、来源广泛的特点为机器学习方法提供了足够的数据样本。在出租车轨迹数据发掘中常用的机器学习方法有神经网络、贝叶斯模型、支持向量机及遗传算法等。

3.4.1 神经网络

神经网络是应用计算机模拟人的神经系统结构,并经过它从大规模数据中学习到规律和知识的一种过程[121]。神经网络模型的一个重要运用是预测城市中不同区域的打车需求与寻客潜力,并将其引荐给出租车司机[8, 122-123]。文献[12]以路段集群为预测单位,采用基于排名的ELM回归模型(极限学习机)预测未标记集群的寻客潜力。神经网络模型异样能分析道路交通状况,文献[124]采用一种深度限制的玻尔兹曼机和递归神经网络结构模型基于出租车轨迹数据对交通拥堵的演化过程停止建模和预测,可以疾速辨认出交通拥堵区域。神经网络学习的才能非常弱小,但由于是直接从数据出发得到规律和阅历,其结果往往难以解释,而且后期需求大量数据集停止训练。

3.4.2 贝叶斯分类

对于分类成绩来说,贝叶斯实际思索的是在一切相关概率都己知的理想情形下,如何基于这些概率和误判损失来选择最优的类别标记。不同于其他的分类预测方法,贝叶斯分类不只应用模型信息和数据信息,还会充分应用先验信息。贝叶斯分类方法可以基于历史数据预测交通流量[22]、空载出租车数量[125]、乘客出行目的[126]及司机决策行为[127]。如文献[22]在估计每个路段的交通状况基础之上,应用一个基于贝叶斯网络的非监督图形模型TVI来学习交通速度、流量和密度之间的关系,并计算得到交通流量。该方法的优势在于分类效率波动、容易解释,而且所需参数少,适用于大规模数据。但贝叶斯分类中的属性独立性假设往往在实践中不成立,且分类之前需求知道先验概率,存在分类决策错误率。

3.4.3 支持向量机

支持向量机(support vector machine, SVM)是一类二分类模型,其基本模型定义是特征空间上间隔最大的线性分类器,其学习策略就是间隔最大化。同时作为一种预测算法,通常能对有效客源、交通速度以及出租车排队等待工夫等[128-130]停止预测。如文献[130]基于支持向量机模型建立了一个短期交通速度预测模型,并与人工神经网络、k-最近邻模型、基于历史数据的模型、基于移动平均的模型等方法停止比较,其中带有时空参数的支持向量机模型展现了良好的功能。支持向量机方法对小集群分类效果比较好而且可以避免部分极小点成绩,但其局限是难以运用于大规模数据。

3.4.4 遗传算法

遗传算法是一种最优化方法,经过模拟遗传学中生物退化过程来搜索最优解,常运用于处理城市交通范畴的各类优化成绩,如对电动出租车充电站选址停止优化[131]、对出租车应急调度方案停止优化[81, 132]等。文献[80, 132]应用多种群遗传算法停止最短途径计算,完成出租车应急调度模型,同时为司机引荐最佳载客道路。遗传算法采用的是启示式搜索,易于并行化处理,但能够出现早熟现象,并且处理大规模数据时效率不高。

4 出租车轨迹数据发掘运用

目前出租车轨迹数据发掘范畴研讨的运用很广泛,其中在智能交通、资源与环境保护、城市规划、社会感知等方面的运用,是目前的运用热点。

4.1 智能交通

(1) 交通形状分析。从出租车轨迹数据中提取城市道路交通相关的信息,并应用这些信息来辨认交通拥堵现象[26, 75, 124]与特殊社会事情[28, 133]、估计并预测交通流量[4, 134]和行程工夫[6]等的一类研讨,这类研讨的意义是辅助管理者及时处理道路交通中的突发事情。

(2) 出租车运营管理和支持。将出租车轨迹数据发掘结果用于改善出租车的运营管理、提高出租车司机平均支出是该范畴运用最为广泛的一个方面。如将出租车轨迹数据中提获得到的上下客点、载客里程、空载率等数据作为出租车行为分析[31, 70]、打车需求预测[89, 92, 100]的根据,从而为出租车的寻客策略[8, 11]和调度方针[132]提供指点。

这一运用范畴相对广泛和深化,一方面是由于出租车轨迹数据本身是经过安装在出租车上的GNSS定位设备采样而来,轨迹数据呈现出的时空规律实践上就是出租车行为的映射,因此与出租车行业运营与管理严密相关;另一方面,智能交通范畴的研讨结果能直接改善乘客与司机信息不对等的现状,并实在处理理想中打车难、司机支出低等成绩,具有理想意义性,而且应用数据作为基础支撑,直观且具有压服力。

(3) 途径规划与异常检测。途径规划次要指为出租车司机规划特定两个地位之间的最短途径,在途径规划时多会结合从出租车轨迹数据中发掘到的高支出司机的择路阅历[7, 112-113]。异常检测则指对出租车行驶途径停止异常检测,如将待检测途径与从轨迹数据中提取的常规途径停止比较,从而判别途径能否存在绕路、超速等异常现象[135-136]。该类研讨目的是预防司机的诈骗行为及监测突发事情的发生。

4.2 资源与环境保护

车辆内行驶过程中的燃油耗费、尾气排放等活动是自然资源与环境保护方面关注的一个重要部分。将出租车作为城市行驶车辆的一个样本,计算出租车行驶里程、行驶速度并提取加油行为[19]可估计城市内全体油耗量[78]和尾气排放量[20],并可作为相关政策制定的辅助根据。

4.3 城市规划

(1) 城市规划优化。这里的城市规划次要指城市功能区域规划及道路交通规划,经过出租车轨迹数据发掘而获得的城市功能单元[35]、区域可达性目的[116]和道路包容量[74]等,能作为评价现有城市规划的目的,并为城市规划优化[95, 98]提供根据和支撑。

(2) 路网更新。从出租车轨迹数据中能提取出较为明晰的交通路网结构,经过比对历史路网数据可以辨认出路网变化,完成路网更新[101, 108, 137]。同时,结合出租车速度与方向信息对道路交叉口停止分析可以辨认复杂的交叉口结构[85, 138]、学习交叉口交通规则[107]。

4.4 社会感知

社会感知是指应用各类地理空间大数据研讨人类时空间行为的一类研讨。出租车轨迹数据是地理空间大数据中的一类重要数据,它所反映的人类时空间行为次要体如今城市人群出行规律与人类移动特性两个方面。

(1) 城市人群出行规律。城市道路网中或城市各区域间交通流方向与流量的变化可以反映市民的日常出行规律变化。这类研讨经过发掘交通热点、跟踪热点区域间的交通轨迹来探求人群的移动规律[17-18, 117]与市民社会活动与文娱生活的偏好规律[16],其关注的是城市尺度上人群的集体活动形式。

(2) 人类移动特性。人类移动特性研讨是应用特定的统计模型,在个体层面上对人类出行的步长、工夫与频率等量停止建模分析[23-24]。与前一类运用不同的是其不局限于特定的出行目的或工夫段,而是更多地关注个体的随机散步形式[139],经过数理统计方法对人类移动停止分析。

值得留意的是近年来在城市规划、社会感知方面出现了许多有价值的工作,出租车轨迹数据发掘研讨已不只运用于智能交通范畴与处理打车成绩,而是逐渐末尾扩展运用范畴外沿,寻求与其他专业范畴相结合的综合运用,如提取城市功能结构、发掘社会动态等。现如今,城市计算相关主题已渐渐成为出租车轨迹数据发掘范畴的热点话题,如何应用城市中产生的大规模数据来辅助决策、应对城市化进程中出现的各种应战是将来值得继续深化探求的方向。

5 研讨展望

出租车轨迹数据是城市交通形状、城市结构规划及人口活动规律的数据映射,经过发掘出租车轨迹数据可以改善城市交通服务、优化城市规划、提高市民生活质量。但是出租车轨迹数据发掘研讨的相关实际与技术照旧亟待深化。基于现有研讨,本文提出还需进一步探求的几个方向:

5.1 支持轨迹大数据实时清洗、管理、发掘的高功能计算

轨迹数据的规模越来越庞大,与此并存的还有数据缺失、精度低、语义信息单一等一系列成绩,如何提高数据质量并开发出更高效的轨迹数据实时发掘方法是不断以来面临的难题。一方面,急需结合大数据、云计算[140]等新兴技术,在充分发掘轨迹数据的前提下,提高发掘方法的精度和效率。另一方面,轨迹数据紧缩技术能在保证轨迹数据的结构和语义残缺性的前提下,尽能够地减小轨迹数据量。结合分布式计算、量子计算等高功能技术,设计高效的轨迹数据实时紧缩算法与管理查询机制是将来的研讨方向。

运用出租车轨迹数据停止司机行为分析或市民出行目的预测等研讨时会触及个人隐私成绩,在不暴露用户敏感信息的前提下停止有效的数据发掘,既能发掘出规律,又能隐私保护,并严厉恪违法律法规。

5.2 基于泛在信息交融的跨范畴研讨

随着传感网、物联网、射频辨认技术与智能嵌入技术的发展,信息社会正逐渐转变为泛在信息社会,人与物、物与物之间交流所产生的泛在信息关联分析将带来大量潜在新型运用。出租车轨迹数据本身语义信息有限,与其他泛在信息如共享单车数据、夜光数据[141]、POI数据、微博签到数据、交通刷卡数据、道路卡口数据等停止结合分析能扩展运用范畴范围,停止多范畴多学科的综合运用研讨,有效处理城市成绩。其难点在于泛在信息标准不一、结构多样,需求提出成熟可行的数据度量与交融方法。

5.3 基于轨迹大数据的城市和城市群建设与管理的新型运用

让健康的人生活在健康的环境里,让生活在城市中的人都有安全感是城市规划与设计的一个重要目的。出租车轨迹大数据所反映的正是城市居民的移动行为和出行偏好,能为城市规划优化、改善城市环境提供根据和支撑。如基于出租车轨迹大数据探测交通网络中车道设计与实践承载交通流量不相婚配的区域,从而对交通网络停止重新规划与建设,在一定程度上缓解城市拥堵现象,从而完成城市的健康与安全。

同时城市本身也处于不断发展的过程中,城乡一体化和城市群的发育发展等,也提出了一系列新的课题,为出租车轨迹数据的发掘提供了新的空间。

5.4 结合轨迹数据与新兴信息技术的创新研讨

从出租车轨迹大数据中能发掘出新的规律和知识,结合知识图谱与知识库等技术对这些获取到的知识停止组织、关联和管理能进一步发挥其运用价值。目前已有部分研讨尝试将神经网络、深度学习等智能方法运用于出租车轨迹数据发掘,但大多并未深化。大规模的历史轨迹数据集为机器学习提供了足够的训练样本,机器学习方法自动的特征学习过程能充分发掘轨迹数据的价值,在将来这仍是一个前景广阔的方向。此外,将出租车轨迹数据作为一类辅助数据源用于语义了解、自然言语辨认等范畴也是值得尝试与探求的一个方向。

【引文格式】吴华意, 黄蕊, 游兰, 等. 出租车轨迹数据发掘停顿. 测绘学报,2019,48(11):1341-1356. DOI: 10.11947/j.AGCS.2019.20190210

威望 | 专业 | 学术 | 前沿微信投稿邮箱 | song_qi_fan@163.com

欢迎加入《测绘学报》作者QQ群: 297834524

进群请备注:姓名+单位+稿件编号

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评4

zouli5188 2019-12-2 07:25:17 显示全部楼层
分享了
回复

使用道具 举报

LOveQzh倒数 2019-12-2 17:20:15 显示全部楼层
不错 支持一个了
回复

使用道具 举报

林檎彡 2019-12-4 08:47:34 来自手机 显示全部楼层
非常好,顶一下
回复

使用道具 举报

@Xizi_ukdHxkem 2019-12-4 20:02:34 显示全部楼层
LZ敢整点更有创意的不?兄弟们等着围观捏~
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies