摩拜 & 京东联合利用智能单车数据挖掘违章停车
2018-09-11 来源:raincent
智慧城市是近年来非常热门的话题,基于 AI 技术的城市计算的研究也是热点之一。对于构建一个智慧城市来说,拥有海量高质量「活」数据非常关键。
近年来兴起的共享单车满足了大量用户的短途出行需求,这些每天运行在大街小巷中,带有智能锁终端的设备,在过去几年中已经收集了大量有价值的「活」数据。现在市场中的先行者们也开始在挖掘这些数据中的价值。
在刚刚过去的数据挖掘顶级会议 SIGKDD 2018 中,摩拜与京东金融合作发表了一篇名为「Detecting Illegal Vehicle Parking Events using Sharing Bikes' Trajectories」的论文,该论文通过挖掘摩拜自行车的轨迹数据来检测城市中的机动车违停问题。可以做到在无需任何人力的介入下,达成了全城范围的违停检测,为城市的数据利用发起了一个新的方向。
背景
违章停车问题是现在大城市普遍需要面对的难题。随着汽车保有量增加,停车位供不应求,违章停车变得十分严重。目前检测违停常用的方法是交警巡逻。这样的方法耗费大量人力,且效率不高。此外,随着城市中摄像头的采用,基于视频的违停检测技术也开始推行。然而,摄像头及检测系统的部署和维护非常昂贵,最终也导致用于检测违停的摄像头覆盖率不足。
摩拜的兴起、摩拜的数据
幸运的是,近年共享单车兴起并广受欢迎。以摩拜为例,摩拜单车在北京拥有超过百万的订单。而摩拜单车的用户在使用过程中,记录了大规模、细粒度的非常有价值的轨迹信息。违章停车会对自行车的骑行线路产生影响,使其不同于正常骑行轨迹。如果在某一路段获得了大量模式类似的轨迹,就可以对当前路段是否有违章停车进行推测。
论文:Detecting Illegal Vehicle Parking Events using Sharing Bikes' Trajectories
论文链接:http://urban-computing.com/pdf/kdd2018illegalparking.pdf
摘要:违章停车是大城市中普遍存在的问题。违章停车引起交通拥堵,也会引发交通事故。传统的交警巡逻、摄像监控方案,会耗费的大量人力物力,很难覆盖整个城市。共享单车的兴起产生了大量且质量高的轨迹数据,为我们检测违章停车提供了新的机遇。因为我们观察到,大多数违章停车发生在路边,会对自行车骑行轨迹造成影响。为此,我们提出了基于共享单车轨迹数据的违章停车检测技术,该技术主要包含了两个模块:一是预处理模块,包含了有针对性的相应轨迹清洗、路网匹配、轨迹索引方案;二是检测模块,该模块对正常轨迹建模,从待测轨迹中提取特征,再通过假设检验方法检测违章停车。该系统部署于摩拜公司内部云平台。最后,我们会展示详细的实验与许多有意思的实地考察。
方法
系统主要分为两个模块,预处理和检测。
预处理模块主要分三个步骤:
1. 通过停留点检测和速度限制清洗数据;
2. 对单车轨迹进行地图匹配。与以往机动车轨迹地图匹配不同的是,该工作去掉路网中的高架路、道路方向限制和限速,以适应自行车轨迹。并且,论文介绍了基于平均距离和轨迹方向的错误匹配过滤方法,有效解决了自行车轨迹脱离路网(例如骑到居民区或者公园里的轨迹)的现象;
3. 对已清洗、已匹配的轨迹数据,进行路段 ID 进行倒排索引建立,再以时间戳进行二级索引建立。以得到快的数据获取速度。
在检测模块,作者阐明了三个难点及应对方法:
1. 为了应对违停检测正样本难获取性,和轨迹模式在违停时的多样性,该工作采用了单类学习(One-class Learning)的思想。即只学出正常情形,再进行异常检测。该工作采取深夜的轨迹作为正常轨迹;
2. 其次,意识到 GPS 误差、骑行习惯多样性引入的单条轨迹难以分类的问题,作者采用了轨迹融合与分布一致性的假设检验,KS 检验。文章解释到,即使 GPS 误差和不同用户骑行习惯会影响单条轨迹,然而一条特定路段上,轨迹点概率分布是不变的。只有在有违章停车发生时,这个概率分布才会受到影响。因此,分类轨迹点分布,比分类单条轨迹要可靠;
3. 最后,作者提到 GPS 误差随着地理环境产生的影响,例如高楼密集处 GPS 误差大,空旷处 GPS 误差小。因此该工作中,每条路单独进行建模。
最后检测的流程如图。在离线建模状态下,对每条路段,算法取出历史数据中,深夜经过该路段的轨迹数据,作为 baseline;在在线检测状态下,将给定时间段的待测轨迹数据,与 baseline 轨迹数据进行 shift 值分布一致性进行 KS 检验。当 KS 检验无法通过定值的致信度,判断其为有违章停车。
实验与 Case study
文章中的实验基于北京路网数据及北京 6 个月的轨迹数据。为了验证算法结果有效性,作者亲自采集了 454 个违停数据,包含 159 个正例。通过调节置信度的大小,作者得到了对应的检测 F1 值。最好结果为 0.73 的 F1 值,在为 0.71 时取得。
此外,作者还研究了在不同的数据量下,算法效果的变化。文章中,通过限制待测轨迹数从 10 到 50,画出了对应的 ROC 曲线,曲线下方面积越大效果越好。从结果中可以发现,算法效果随着数据量的上升而变好。另外,基于 30 条轨迹的检测效果和 50 条的效果非常接近。作者认为,只要轨迹数量至少达到一定量(如 30 条),就可以得到相对准确的检测结果。
为了更好地评估违停检测算法的优劣,论文作者根据得到的实验结果(路段颜色越深表示违停情况越严重),在亮马桥地铁站附近做了实地考查。作者发现,被检测违停严重的红色框内是大使馆区,上班族较多,且有不少饭店,但区域内缺乏停车场建设,因此,车辆违停现象严重,甚至出现在自行车道、人行斑马线上;相比之下,东边的三环辅路,一路周围空旷,只有两个拥有大量停车位的酒店,极少出现违停。这些考察进一步验证了实验结果的有效性。
另外,作者根据对比不同时间段违停严重程度,发现某些路段具有时间敏感性。例如文章提到,在亮马桥站出口,工作时间车辆较少,而高峰期违停相对严重,并解释这与司机接送乘客有关;另一个例子是在北四环的望河公园,在周末、节假日,路边违停有明显增多,这与该公园有较多亲子主题活动,且缺少内部停车场有关。
贡献
该论文是第一篇基于共享单车的违停检测研究。在无需任何人力的介入下,达成了全城范围的违停检测。设计了针对共享单车轨迹特定的清洗与路网匹配方法,并以此采用了一种轨迹融合与假设检验的违停检测算法。该工作使得可以单独依赖共享单车数据完成大范围的违章停车检测,为解决机动车占道停放等问题提供新思路,并助力城市道路规划的优化和完善,是共享单车数据深度挖掘的一个经典例子。
标签: 金融
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。
下一篇:关于UPS电源的稳态测试