基于互联网时空大数据的通勤特征测算中存在的不足
栏目:金源最新资讯 发布时间:2024-04-22
文章浏览阅读911次。写在前面:针对传统通勤特征测算中存在的不足,作者提出一种基于互联网时空大数据的通勤特征挖掘技术框架

写在前面:

针对传统通勤特征测量的缺点,作者提出了基于互联网时空大数据的通勤特征挖掘技术框架,并将通勤特征数据应用到全国主要城市的通勤监测报告和国土空间规划中。 结果表明,基于互联网位置数据的通勤特征与抽样调查获得的通勤特征一致,能够提供样本量大、成本低、空间精度高的高频更新的通勤监测指标。 是对传统方法的有效补充和强化。

坎长城

百度时代网络技术(北京)有限公司 百度慧眼 技术架构师

随着时空大数据相关研究和实践在规划领域的出现,大数据已经成为规划行业不可或缺的重要组成部分。 时空大数据广泛应用于全国人口流动与迁移分析、城市群识别与城市群内部城市网络节点分析、都市圈识别与中心体系建设、社区生活圈规划等各级规划研究。 在国土空间规划改革背景下,构建规划实施监督体系成为推动国土空间规划有序实施的重要手段和保障。 通过时空大数据将人类活动纳入监管体系是一个重要趋势。

通勤特征是衡量城市空间布局合理性和宜居性的重要方面。 应当纳入规划实施监督体系定期监测的重要内容。 传统上,出行者的通勤特征主要通过问卷调查来获取。 文献[1-3]通过对不同城市进行问卷调查,探讨居民通勤空间特征、出行成本、模式选择等,提出优化城市空间结构、鼓励低碳交通的政策建议。 问卷调查不仅可以获取通勤者的空间位置信息和出行信息,还可以获取相对丰富、完整的通勤者社会经济背景信息。 但缺点是采集成本较高,不利于大规模部署,不适合整个城市层面。 进行通勤研究。 尽管我国一些大城市已形成每5至10年进行一次大规模居民出行调查的机制,但时间间隔较长,不支持高频次更新和对通勤特征的持续监测。 调查年份、范围、抽样方法不同。 这也使得不同城市之间的横向比较变得困难。

随着大数据技术的发展,车辆GPS数据、公交IC卡数据、手机信令数据等具有良好的时空连续性,在不同城市广泛可用,为通勤监控提供了新的可能。 文献[4]以出租车GPS数据为基础,识别通勤出行并分析其空间特征; 文献[5-6]利用公交卡数据结合公交GPS数据分析北京职住关系和通勤出行,评估职住分离的空间差异。 然而,利用GPS数据进行通勤研究只能获得部分出行方式的通勤特征,在分析整个城市的通勤特征时存在系统偏差。 手机信令数据可以覆盖大部分人群,利用其进行通勤研究是近年来的研究热点。 然而,从手机信令数据中提取的用户通勤特征主要是空间特征,难以扩展到通勤时间、通勤方式等; 手机信令数据分布在各个运营商之间,不同城市之间的可比性较差,而定位的准确性与基站位置分布密切相关。 与互联网定位相比,手机信令定位精度较差,互联网定位精度一般在40m以内。

本文利用互联网定位、地图数据和路径规划相关信息,重点研究如何利用时空大数据呈现城市通勤全貌、如何利用人类活动呈现空间特征和格局等关键问题。 ,构建基于百度地图时空数据的通勤特征挖掘。 该技术系统利用机器学习算法,系统地挖掘通勤OD、通勤时间、通勤距离、通勤方式等通勤特征。

数据与技术路线

数据源

本文使用了互联网位置服务、兴趣点(POI)、用户画像、用户行为等基础时空大数据。 各类数据在处理的各个环节均进行匿名处理,每个环节和输出均不涉及个人隐私。

1)互联网位置服务数据。

百度地图日均位置服务请求超过1200亿次,月活跃智能设备数量超过12亿台,覆盖全国各级行政区划。 位置服务数据是通勤特征挖掘的基础,主要用于挖掘通勤OD、通勤时间、通勤方式等。 一方面,定位数据辅助样本提取,包括常驻点(居住地、工作地点等)的提取以及汽车、轨道交通、公交、自行车五类通勤方式的样本提取、步行; 另一方面,它用于构造特征数据。 包括常驻点的定位点数量、定位时间分布等特征,以及通勤模式挖掘中的定位点数量、中位速度、最大最小速度等特征的构建。

2)兴趣点数据。

POI数据主要用于通勤OD和通勤模式挖掘。 一方面用于通勤OD功能建设,包括住宅小区、办公场所、POI功能混合等功能; 另一方面用于通勤特征的计算,如公共交通便利特征,包括居住、就业、公交站点等。 居住地、工作地附近距轨道交通站的距离、公交车站、轨道交通站的数量等。

3)用户画像数据。

用户画像包括性别、年龄、资产状况、受教育程度、消费水平、收入水平等维度,用于挖掘通勤OD和通勤方式。 构建通勤OD挖矿中的退休、职业等特征。 构建年龄、年龄和通勤方式挖掘。 教育、消费和收入等特征。

4)用户行为数据。

用户行为数据包括地图中各种功能的使用情况。 一方面用于辅助提取样本进行通勤OD和通勤模式挖掘。 另一方面,用于构建不同通勤模式下地图功能使用天数、次数等特征。

技术路线

根据研究目标和研究数据,确定了如图1所示的研究框架。 基于定位数据、路径规划、用户画像、用户行为数据,利用空间聚类算法对定位点进行聚类,得到多个独立的用户聚类; 它从用户集群中提取定位、土地属性、用户画像等60多个特征。 ,利用( )等机器学习算法对用户集群进行分类,获取居住地、就业地、娱乐地等; 基于居住地和就业情况提取通勤OD,根据居住地、就业情况、定位、用户画像等数据提取用户肖像、公共交通便利性等71个特征,利用机器学习算法挖掘通勤方式; 基于通勤OD、定位时间、路径规划等数据,挖掘通勤距离、通勤时间、交通可达性,形成通勤特征数据; 基于上述通勤特征指标数据进一步应用于全国主要城市的通勤监测报告、城市体检、国土空间规划等项目。

图1 研究框架

通勤OD挖掘

全面准确掌握城市通勤OD分布,长远有利于优化城市空间格局,从源头上治理各类交通拥堵; 短期内将为解决各类交通问题提供重要数据支撑,助力实现城市交通精细化管理。 , 精确。 通勤OD挖矿首先要识别居住地和就业地,根据用户的居住积分进一步计算用户的通勤OD。

住宅开挖

基于6个月的互联网位置数据,整合被剥夺位置、POI等多源数据,提取位置属性、时间分布等60多个特征。 该算法基于GBDT,挖掘常驻点数据,精度高、覆盖范围广。 ,包括居住地、就业地、商圈等地点。

驻留点识别方法为: 1)首先接入被剥夺的、匿名化的互联网位置服务数据,过滤掉异常噪声数据,进一步识别锚点的状态是停留还是移动; 2)根据锚点的状态,去除移动过程中的位置数据,保留停留状态的位置数据; 3)利用空间聚类算法对停留状态数据进行空间聚类,形成多个独立的用户集群作为居住和就业地点的候选集。 ; 4)对每个用户集群进行特征提取,利用预训练的模型进行分类,判断该用户集群是居住地还是工作地; 5)最后利用分类标签、停留天数、最近地点进行综合判断。 例如,居住地为用户集群中居住分类标签且夜间停留天数最多的集群。 工作地点为工作日白天停留天数最多的用户集群中具有工作地点分类标签的集群。 该模型输出用户的居住地和工作地点。 。

模型生成分为三个步骤:样本提取、特征工程、模型训练。

1)样品提取。

基于位置服务数据、用户标注、POI数据,结合土地属性数据(住宅用地、商业用地等),提取三类样本:居住类、就业类、其他类。

2)特征工程。

提取定位属性、时间分布、用户画像、土地属性、Wi-Fi属性等5大类60多个特征。 设备停留天数和平均时长较大的地点,表明这些地点是用户经常去的、有意义的地点,而不是偶然经过或短暂停留的地点; 无论设备放置在夜间还是白天、工作日还是周末,确定居住和工作地点至关重要。 例如,用户晚上或周末停留的地方可能是居住地,而用户工作日白天停留的地方更有可能是工作地点; 该设备一般只连接到居住地的一台设备。 无线网络可以连接到工作地点的多个无线网络。 设备所连接的无线网络对于确定居住地和工作地点至关重要; 利用集群所在写字楼、住宅区、商场等地理位置信息辅助判断。 集群是居住或就业的地方。

3)模型训练。

针对样本中提取的多维特征数据,本文采用贝叶斯、SVM、随机森林等机器学习算法训练驻留点识别模型,并在样本上测试不同算法的准确率和召回率通过交叉验证。 指数。 上述分类算法的效果从最好到最差的排名是:随机森林、SVM、贝叶斯。

驻留点识别模型训练完成后网站推广,需要根据测试集数据对训练好的模型进行进一步评估。 评价指标采用查准率和查全率。 以居住地为例,准确率是指模型预测的数据中样本标签为居住地的比例,召回率是指数据中样本标签被正确识别为居住地的比例。 居住比例。 评估结果表明:在测试集上,居住点模型对于居住样本的准确率为91%,召回率为92%,对于就业样本的准确率为88%,召回率为87%。 其他类型样本的识别准确率和召回率均为89%。

基于上述挖掘的所有居住样本,根据《中国统计年鉴》的人口年龄结构分布,利用ID技术还原常住人口。 这种常住人口具有准确率高、覆盖面广、动态更新的优点。 它覆盖全国超过13亿常住人口,每月更新一次。 1个月内即可识别出调动或跳槽的用户。 在以往的人口研究中,百度慧眼的常住人口数据的可靠性已经被多次验证。 例如,青岛城市规划设计院通过走访20个小区,分析了百度人口与年鉴人口的分布差异,发现百度人口平均误差小于10%,优于传统人口统计方法[ 7]; 宁波市自然资源和规划局对比了已关闭的宁波职业技术学院(杭州湾汽车学院)教务处提供的学生统计数据发现,百度慧眼大数据在总人口数据中的偏差仅为1.46 %。 区位定位、人群画像与学校实际情况基本相符[8]; 百度慧眼天津市规划院联合创新实验室对百度慧眼提取的工作、居住、通勤信息与天津市2017年居民出行调查数据进行指标对比分析,发现两组之间的相关性达到0.8,且距离分布曲线拟合良好[9]。

通勤OD计算

根据居住点确定的居住地和就业地,进一步计算通勤OD数据。 将定位点按时间顺序形成时空序列,判断定位点是否在居住地和工作地点附近200m处。 如果满足距离条件,则会添加居住地或工作地点的标签。 从居住地出发到工作地点或者从居住地出发到达工作地点后,将这两种情况之间传递的位置序列定义为通勤OD网络推广,将其他位置序列过滤为非通勤出行。 在此基础上,过滤异常OD数据,包括出发地和目的地之间时间过长的情况,以及序列中明显偏离设备驻留点的异常点。

通勤距离采矿

通勤距离是居住地与就业地之间的距离,包括直线距离、曼哈顿距离、路网距离等。一个城市或中心城区通勤人口的平均通勤距离是城市职住分离程度的反映衡量和通勤运营成本。 平均通勤距离越大,城市运营成本越高,需要更高效的通勤交通来支撑。

两点之间的距离最简单的描述是直线距离,在平面坐标系中也称为欧氏距离。 在现实世界中,两点之间的直线距离是用球坐标系中的球距离来表示的。 球面距离可以更准确地测量南北不同纬度的两个地点之间的直线距离。 通勤椭圆是衡量一定区域人口方向分布的重要手段,而球面距离是计算该指标的基本变量。 超额通勤是评价一定区域职住分离的重要指标,球面距离也是其核心变量。

直线距离简单有效,但在现实世界中,大多数区域是无法直接到达的。 这时候曼哈顿距离就可以更好的表达所谓的距离。 曼哈顿距离也称为出租车距离或街区距离。 出租车司机在计算从一个地点到另一个地点的距离时,通常会直接将街区的两个坐标相减,然后相加。 结果就是汽车需要通过的距离。 块数。 在评估区域通勤距离时,曼哈顿距离通常具有更好的可解释性。 此外,曼哈顿距离依赖于坐标系的旋转,而不是坐标轴上的平移或映射。 曼哈顿距离的具体计算仍然是在球坐标系下进行。

曼哈顿距离已经能够很好地解释现实世界的距离。 但随着技术的发展,我们仍然希望充分利用现有的数据和技术来实现距离的终极描绘。 这是路网距离。 百度地图的路线规划服务基于全国路网和交通状况数据,可以准确评估从A点到B点的距离信息,并充分考虑路线改道、封路等情况,获得完全准确的通勤距离。以路网为基础。 。 这个数据可以更准确地衡量整个城市当前的通勤距离,更好地衡量通勤成本。

基于地图路网数据,利用路径规划技术计算路网通勤距离的具体流程如图2所示。首先,获取城市500m网格之间的路径规划数据,包括汽车的路径规划数据和自行车。 总体计算思路是:根据网格间的路径规划距离,近似计算点与点之间的路网距离,该距离可以近似视为用户的路网通勤距离。 路网距离能够更真实地反映两个区域之间的实际距离,当路网距离过大时这一点更为明显。 存在一些异常点,无法通过路径规划数据获得对应的距离。 在这种情况下,仍然使用用户的曼哈顿通勤距离作为最终通勤距离。 经过上述步骤,就可以得到曼哈顿距离、欧氏距离、球面距离、路网距离四种通勤距离供数据分析人员使用。

图2 通勤距离挖掘流程

通勤时间挖掘

通勤时间是指出行者在通勤过程中所花费的时间成本。 通勤时间影响人们的幸福感,也影响城市的运行效率。 城市的平均通勤时间越长,城市的运营成本就越高。 城市平均通勤时间和通勤时间在45分钟以内的比例是城市体检的重要参考指标。

通勤是一种非常规律的行为。 利用这种规律性,聚合一段时间内的用户定位数据,就可以计算出用户准确的通勤时间。 通勤时间挖掘分为三个步骤:1)从定位数据中挖掘单日出行OD数据。 2)过滤单日出行OD数据,过滤从居住地到就业地、或从就业地到居住地的单日通勤OD数据。 单日通勤OD数据是完整通勤OD数据的子集,包括采样的用户通勤行为数据。 3)汇总三个月的通勤OD数据并计算完整去重的用户通勤OD数据。 该数据包含优化后的全国范围内的用户通勤起止时间点、时长等信息,可以满足通勤时段和通勤时长维度的分析需求。

图3展示了基于3个月的通勤OD数据进行通勤时间挖掘的流程。 整个过程分为两步:

图3 通勤时间挖掘流程

1)异常值过滤。 单日通勤OD数据分为两个时段:上午(6:00-11:00)和晚上(17:00-22:00)。 通过对用户三个月内可挖掘的日常通勤OD数量进行统计分析,过滤掉统计模式小于n次的用户(n为5,剔除30%分位数以下的数据),留住优质用户通勤 OD 数据。 。

2)对高质量的通勤数据进行定期统计分析。 首先,基于异常速度值和z分数异常值检测等策略过滤单日通勤异常值。 然后,汇总计算用户的出发时间点和到达时间点的分布。 以出发时间为例,首先获取出现频率最高的小时作为用户的最终出发时间; 然后,获取该用户对应小时下的所有分钟列表; 使用分位数过滤分钟列表两端的数据后,将时间的平均值作为最终出发时间。 到达时间以类似的方式获得。 最后,用户的通勤时间等于合计到达时间减去合计出发时间。 这个通勤时间数据包含了早晚通勤的起止时间点信息,对于城市通勤成本分析、区域加班分析、城市夜生活分析等场景非常有帮助。

通勤挖掘

构建通勤模式挖掘样本集,基于互联网定位、POI数据、用户行为、居民点、用户画像五类基础数据,提取汽车、轨道交通、公交车五类共计42万个样本集、自行车和步行。

通过分析样本集及其特征,结合交通调查数据,可以发现不同通勤方式的用户在时空大数据中呈现出截然不同的特征,而这些差异是提取特征和构建分类数据集的基础。

以通勤距离分布为例,小汽车、轨道交通、公交车、自行车和步行的样本之间存在明显差异。 自行车、步行的通勤距离较短,公交、轨道交通的通勤距离较长,驾车的通勤距离较短。 距离分布较为分散。 因此,通勤距离可以作为分类的特征。

采用这一思路,本文设计了4类71个特征,整合当前主流移动互联网相关数据来描述用户的通勤行为。 这4类特征包括:7个定位特征、6个用户画像特征、45个用户行为特征、13个公共交通便利特征。 构建具有广度和深度的特征集,为通勤模式挖掘提供了充分的证据。

基于贝叶斯、SVM、决策树、随机森林、GBDT等机器学习算法构建通勤模式挖掘分类模型,使用样本集和71个特征进行模型训练,并对不同机器学习算法进行比较、测试和比较。 评价。 该算法的准确率和召回率最好,总体超过87%。

确定分类模型后,对全国所有城市的用户通勤数据进行分类,输出超过6亿用户的通勤模式数据。 通过按照一定的空间单元聚合个体数据,可以计算出每个空间单元内的人数以及各种通勤方式的比例。 北京市部分地区通勤数据如表1所示。

表1 北京市部分地区通勤方式数据概览

交通便利性

用户给出起点和终点,地图返回两点之间划分为交通方式的路线,这就是路径规划; 地图路径规划包括汽车、公交、自行车、步行四种模式。 地图路径规划包括路径计算和排序两个过程。 在路线计算阶段,首先根据不同交通方式线路的属性信息和运输成本构建线路权重拓扑图,然后利用图搜索算法进行路径匹配并返回一定数量的替代路线; 在排序阶段,结合海量用户的数据出行偏好分析,根据时间、换乘、步行、交通类型等因素建立路线选择规则,对最初返回的备选路线进行排序和筛选,最终得到安排最佳路线规划路线。

路线规划功能可以为获取通勤时间和通勤距离提供有效支持。 然后,结合人口和就业,对不同区域进行交通可达性分析,研究不同地点交通可达性与人口、就业集聚的关系,发现交通网络布局中的薄弱环节,指导城市更新和改造。发展。 走向具有更大潜力的高可达性地区。 将交通模型作为交通规划中的技术工具,可以利用路径规划获得的各模式的出行路径信息来校核或替代其出行成本,提高出行分布和模式划分模型的参数标定精度,并具有提高现有交通整体模型的数据粒度和空间粒度的潜力。

写在最后

针对传统通勤特征测量的不足,本文提出一种基于互联网时空大数据的技术框架。 通过整合多源互联网定位、地图等时空数据,利用机器学习算法挖掘通勤OD、通勤距离、通勤时间、通勤方式、交通可达性等通勤特征数据。 经验证,该方法与传统方法相比具有精度高、覆盖范围广、更新速度快、空间精度高的优点。 它是对传统方法的有效补充和增强。 基于上述通勤特征指标数据,进一步应用于全国主要城市的通勤监测报告、城市体检、国土空间规划等项目。

下一阶段,我们将根据通勤特征,进一步构建反映通勤模式的分析模型,量化不同因素对通勤工作、居住、通勤方式选择的影响,优化城市空间结构,并基于通勤OD,拓展城市空间结构。全出行链OD分析,为提高出行调查和15分钟生活圈设施评估规划的准确性提供优质数据支撑; 聚焦轨道交通车站,分析车站与轨道交通出行及周边设施、人员活动的关系,为高质量的TOD开发、轨道建设等互联网城市提供数据指导和支持。

文章原创于金源网络科技有限公司:http://haimianbeibei.com/