基于python的transbigdata实现出租车轨迹数据分析与可视化

来源：互联网转载 | 更新日期：2023-09-10 02:13:30

TransBigData是一个为交通时空大数据处理、分析和可视化而开发的Python包。TransBigData为处理常见的交通时空大数据（如出租车GPS数据、共享单车数据和公交车GPS数据等）提供了快速而简洁的方法。TransBigData为交通时空大数据分析的各个阶段提供了多种处理方法,代码简洁、高效、灵活、易用，可以用简洁的代码实现复杂的数据任务。转自同济大学余庆博士的文章：点击跳转

应专业选修课《数据分析与可视化》的期末考核，本人参考了@小旭学长的文章：点击跳转

本文根据上述文章，对该项目进行了一些代码上的修改（在一些可能报错的地方进行了修改），以及增加了对代码的解释以及图文介绍，并且增加了上海的出租车轨迹数据。

本项目作为课程设计参考，个人感觉本项目在最后的呈现效果上十分出色。该项目使用jupyter notebook开发环境。

项目地址：https://gitee.com/scaukzh/visualization

话不多说，直接看项目。

数据：

①出租车轨迹数据集

来源：https://people.cs.rutgers.edu/~dz220/data.html

介绍：该数据源自国外大学一名助理教授，包含了深圳市2013.10.22一天中大约600多辆出租车的轨迹数据，数据包含的信息依次为出租车ID，时间，纬度，经度，占用状态，速度;入住状态：1-乘客和0-乘客。数据一共大约54w条。

VehicleNumTimeLngLatOpenStatusSpeed01234...544994544995544996544997544998

34745	20:27:43	113.806847	22.623249	1	27
34745	20:24:07	113.809898	22.627399	0	0
34745	20:24:27	113.809898	22.627399	0	0
34745	20:22:07	113.811348	22.628067	0	0
34745	20:10:06	113.819885	22.647800	0	54
...	...	...	...	...	...
28265	21:35:13	114.321503	22.709499	0	18
28265	09:08:02	114.322701	22.681700	0	0
28265	09:14:31	114.336700	22.690100	0	0
28265	21:19:12	114.352600	22.728399	0	0
28265	19:08:06	114.137703	22.621700	0	0

544999 rows × 6 columns

补充：我在项目中补充了一个上海的数据集，该数据集是香港科技大学智慧城市研究小组共享的数据集，包含上海市2007年02月20日单日若干辆出租车的轨迹数据。

②地图数据

地图采用json格式，这个地图数据用于标明深圳区域的范围，在后期进行绘图以及数据处理的时候都有作用。

代码部分：

一、第三方包和数据集的导入

1.第三包的导入

import transbigdata as tbd import pandas as pd import geopandas as gpd import matplotlib.pyplot as plt

使用pip命令直接装transbigdata和geopands包可能会失败。不过transbigdata我已经放在项目中去了，大家直接调用即可。geopands比较容易装，这里就不详细讨论了。

2.读入出租车GPS轨迹数据

data = pd.read_csv('D:/code_for_school/visualtaxi/gps_data/shenzhen_taxi_gps.csv', header=None)#修改自身路径即可 data.columns = ['VehicleNum', 'Time', 'Lng', 'Lat', 'OpenStatus', 'Speed'] data.head() #head函数其中一个默认参数为5，故只返回头5条数据 VehicleNumTimeLngLatOpenStatusSpeed01234

34745	20:27:43	113.806847	22.623249	1	27
34745	20:24:07	113.809898	22.627399	0	0
34745	20:24:27	113.809898	22.627399	0	0
34745	20:22:07	113.811348	22.628067	0	0
34745	20:10:06	113.819885	22.647800	0	54

3.读入深圳市地图数据

# Read the GeoDataFrame of the study area sz = gpd.read_file(r'D:/code_for_school/visualtaxi/geo_data/sz.json')#修改自身路径即可 sz.crs = None sz.head() centroid_xcentroid_yqhgeometry01234

114.143157	22.577605	罗湖	POLYGON ((114.10006 22.53431, 114.10083 22.534...
114.041535	22.546180	福田	POLYGON ((113.98578 22.51348, 114.00553 22.513...
114.270206	22.596432	盐田	POLYGON ((114.19799 22.55673, 114.19817 22.556...
113.851387	22.679120	宝安	MULTIPOLYGON (((113.81831 22.54676, 113.81948 ...
113.926290	22.766157	光明	POLYGON ((113.99768 22.76643, 113.99704 22.766...

sz.plot()

二、数据处理

1.剔除掉超出深圳地图范围的数据

# Data Preprocessing # Delete the data outside of the study area data = tbd.clean_outofshape(data, sz, col=['Lng', 'Lat'], accuracy=500) #剔除超出研究区域的数据 data.head(20) VehicleNumTimeLngLatOpenStatusSpeed012345678910111213141516171819

34745	20:27:43	113.806847	22.623249	1	27
27368	09:08:53	113.805893	22.624996	0	49
22998	10:51:10	113.806931	22.624166	1	54
22998	10:11:50	113.805946	22.625433	0	43
22998	10:12:05	113.806381	22.623833	0	60
22396	12:14:28	113.806602	22.623949	1	45
32436	08:15:34	113.806465	22.624166	0	50
32436	08:15:04	113.807053	22.626350	0	0
32436	08:15:19	113.806252	22.625933	0	22
32436	08:14:49	113.807053	22.626333	0	0
32436	18:10:57	113.806885	22.622967	0	50
32436	18:10:27	113.806450	22.626083	0	36
32436	18:35:15	113.806686	22.623632	1	29
32436	18:10:42	113.805984	22.624683	0	41
27373	18:58:43	113.805969	22.624983	0	42
27373	08:42:34	113.807114	22.623211	0	61
31910	09:49:56	113.806801	22.626200	0	25
35161	00:43:41	113.807030	22.622833	1	51
35161	00:43:25	113.807098	22.624184	1	54
23411	20:20:06	113.806549	22.623550	0	56

如此一来，那些不在深圳市版图中的数据就被我们剔除掉了。

2.对数据按照车辆编号和时间顺序排好

# Delete the data with instantaneous changes in passenger status data = tbd.clean_taxi_status(data, col=['VehicleNum', 'Time', 'OpenStatus']) #删除出租车数据中载客状态瞬间变化的记录，这些记录的存在会影响出行订单判断。 #判断条件为:如果对同一辆车，上一条记录与下一条记录的载客状态都与本条记录不同，则本条记录应该删去 #实际上就是按照编号和时间顺序将数据排好 data.head(30) VehicleNumTimeLngLatOpenStatusSpeedLONCOLLATCOL452072444077444078444075444079444073444074444076452073446704422019422218426967443922443923422292422295422291443991443987

22396	00:00:29	113.996719	22.693333	1	20	81	65
22396	00:01:01	113.995514	22.695032	1	34	81	66
22396	00:01:09	113.995430	22.695766	1	41	81	66
22396	00:01:41	113.995369	22.696484	1	0	81	66
22396	00:02:21	113.995430	22.696650	1	17	81	66
22396	00:03:01	113.994934	22.697884	0	23	81	66
22396	00:03:41	113.992683	22.697350	0	18	81	66
22396	00:04:21	113.992348	22.696733	0	36	81	66
22396	00:05:01	113.992996	22.693632	0	2	81	65
22396	00:05:41	113.989250	22.693083	0	56	80	65
22396	00:06:21	113.986366	22.691000	0	48	79	65
22396	00:07:41	113.988747	22.685450	0	16	80	63
22396	00:08:21	113.989586	22.681749	0	43	80	63
22396	00:09:01	113.986015	22.681583	0	0	79	63
22396	00:09:41	113.986481	22.680332	0	47	79	62
22396	00:10:21	113.988297	22.676416	0	31	80	61
22396	00:11:01	113.991600	22.677517	0	41	80	62
22396	00:11:09	113.992149	22.677317	0	33	80	62
22396	00:11:41	113.993401	22.674368	0	31	81	61
22396	00:11:49	113.993446	22.674217	0	0	81	61

可以看到编号相同的数据是相邻并且是以时间推进排序的。

3.将数据按照经纬度进行栅格化

栅格化的意思就是把每个数据按照经纬度分到不同位置的格子上

# Data gridding # Define the bounds and generate gridding parameters bounds = [113.6, 22.4, 114.8, 22.9] params = tbd.area_to_params(bounds, accuracy=500) params #(113.6, 22.4, 0.004872390756896538, 0.004496605206422906) #栅格参数(lonStart,latStart,deltaLon,deltaLat)，分别为栅格左下角坐标与单个栅格的经纬度长宽 # Mapping GPS data to grids data['LONCOL'], data['LATCOL'] = tbd.GPS_to_grid(data['Lng'], data['Lat'], params) data.head() VehicleNumTimeLngLatOpenStatusSpeedLONCOLLATCOL452072444077444078444075444079

22396	00:00:29	113.996719	22.693333	1	20	81	65
22396	00:01:01	113.995514	22.695032	1	34	81	66
22396	00:01:09	113.995430	22.695766	1	41	81	66
22396	00:01:41	113.995369	22.696484	1	0	81	66
22396	00:02:21	113.995430	22.696650	1	17	81	66

这一部分完成，我们就已经将数据划分在不同的栈格里了。

4.计算每个栅格中的数据个数

# Aggregate data into grids #python中groupby函数主要的作用是进行数据的分组以及分组后地组内运算！ datatest = data.groupby(['LONCOL', 'LATCOL'])['VehicleNum'].count().reset_index() # Generate the geometry for grids datatest['geometry'] = tbd.grid_to_polygon([datatest['LONCOL'], datatest['LATCOL']], params)# Change it into GeoDataFrame # import geopandas as gpd datatest = gpd.GeoDataFrame(datatest) datatest.head() #计算出每个栅格里的出租车数量（不按时间，是一天数据中所有的点） LONCOLLATCOLVehicleNumgeometry01234

36	63	3	POLYGON ((113.77297 22.68104, 113.77784 22.681...
36	64	2	POLYGON ((113.77297 22.68553, 113.77784 22.685...
36	65	1	POLYGON ((113.77297 22.69003, 113.77784 22.690...
36	66	1	POLYGON ((113.77297 22.69453, 113.77784 22.694...
36	67	8	POLYGON ((113.77297 22.69902, 113.77784 22.699...

LONCOL代表经度上第几个栈格，LATCOL代表维度上第几个栈格，VehicleNum表示了这个栈格中数据的数量，可用于后面进行GPS轨迹热力图的绘图。

5.OD订单的处理

①将各个数据转化成OD数据（每一个数据代表状态）

载客状态无非就两种状态，即（载客-空载-载客）和（空载-载客-空载）。

# Extract taxi OD from GPS data #OD形成就是每一个订单都算一个OD行程，每一行代表一个OD行程 #stime代表出发时间，slon和slat是出发的经纬度 #etime代表结束时间，elon和elat是结束的经纬度 # ID是订单顺序号 oddata = tbd.taxigps_to_od(data,col = ['VehicleNum', 'Time', 'Lng', 'Lat', 'OpenStatus']) oddata VehicleNumstimeslonslatetimeelonelatID42707513130141741737616021768...175519212092119041224103170962

22396	00:19:41	114.013016	22.664818	00:23:01	114.021400	22.663918	0
22396	00:41:51	114.021767	22.640200	00:43:44	114.026070	22.640266	1
22396	00:45:44	114.028099	22.645082	00:47:44	114.030380	22.650017	2
22396	01:08:26	114.034897	22.616301	01:16:34	114.035614	22.646717	3
22396	01:26:06	114.046021	22.641251	01:34:48	114.066048	22.636183	4
...	...	...	...	...	...	...	...
36805	22:49:12	114.114365	22.550632	22:50:40	114.115501	22.557983	5083
36805	22:52:07	114.115402	22.558083	23:03:12	114.118484	22.547867	5084
36805	23:03:45	114.118484	22.547867	23:20:09	114.133286	22.617750	5085
36805	23:36:19	114.112968	22.549601	23:43:12	114.089485	22.538918	5086
36805	23:46:14	114.091217	22.540768	23:53:36	114.120354	22.544300	5087

5088 rows × 8 columns

②将od行程分为载客状态下和空载状态下的

data_deliver, data_idle = tbd.taxigps_traj_point(data,oddata,col=['VehicleNum','Time','Lng','Lat','OpenStatus']) data_deliver #载客状态的od路径 VehicleNumTimeLngLatOpenStatusSpeedLONCOLLATCOLIDflag427075427085416622427480416623...6441164405643906440664393

22396	00:19:41	114.013016	22.664818	1	63.0	85.0	59.0	0.0	1.0
22396	00:19:49	114.014030	22.665483	1	55.0	85.0	59.0	0.0	1.0
22396	00:21:01	114.018898	22.662500	1	1.0	86.0	58.0	0.0	1.0
22396	00:21:41	114.019348	22.662300	1	7.0	86.0	58.0	0.0	1.0
22396	00:22:21	114.020615	22.663366	1	0.0	86.0	59.0	0.0	1.0
...	...	...	...	...	...	...	...	...	...
36805	23:53:09	114.120354	22.544300	1	2.0	107.0	32.0	5087.0	1.0
36805	23:53:15	114.120354	22.544300	1	1.0	107.0	32.0	5087.0	1.0
36805	23:53:21	114.120354	22.544300	1	0.0	107.0	32.0	5087.0	1.0
36805	23:53:27	114.120354	22.544300	1	0.0	107.0	32.0	5087.0	1.0
36805	23:53:33	114.120354	22.544300	1	0.0	107.0	32.0	5087.0	1.0

209250 rows × 10 columns

data_idle #空载状态的od路径 VehicleNumTimeLngLatOpenStatusSpeedLONCOLLATCOLIDflag416628396136396129401744394630...1709711709541709556439164396

22396	00:23:01	114.021400	22.663918	0	25.0	86.0	59.0	0.0	0.0
22396	00:23:41	114.023148	22.665100	0	21.0	87.0	59.0	0.0	0.0
22396	00:24:21	114.024414	22.665367	0	35.0	87.0	59.0	0.0	0.0
22396	00:25:01	114.027115	22.662100	0	25.0	88.0	58.0	0.0	0.0
22396	00:25:41	114.024551	22.659834	0	21.0	87.0	58.0	0.0	0.0
...	...	...	...	...	...	...	...	...	...
36805	23:45:42	114.091217	22.540768	0	0.0	101.0	31.0	5086.0	0.0
36805	23:45:57	114.091217	22.540768	0	0.0	101.0	31.0	5086.0	0.0
36805	23:46:12	114.091217	22.540768	0	0.0	101.0	31.0	5086.0	0.0
36805	23:53:36	114.120354	22.544300	0	0.0	107.0	32.0	5087.0	0.0
36805	23:53:51	114.120354	22.544300	0	0.0	107.0	32.0	5087.0	0.0

332941 rows × 10 columns

可以看出载客状态下数据有20w条，而空载状态下数据有33w条，说明在一天的过程中，总体上处于空载状态的时间是大于载客状态的时间的。

三、绘图以及可视化展示

1.GPS轨迹的热力图绘制

# Plot the grids fig = plt.figure(1, (16, 6), dpi=300) ax1 = plt.subplot(111) #ax用于调整大小 # tbd.plot_map(plt, bounds, zoom=10, style=4) datatest.plot(ax=ax1, column='VehicleNum', legend=True) plt.xticks([], fontsize=10) plt.yticks([], fontsize=10) plt.title('Taxi GPS track point count', fontsize=12);

# Plot the grids fig = plt.figure(1, (16, 6), dpi=300) # 确定图形高为6，宽为8；图形清晰度 ax1 = plt.subplot(111) datatest.plot(ax=ax1, column='VehicleNum', legend=True, scheme='quantiles') # plt.legend(fontsize=10) plt.xticks([], fontsize=10) plt.yticks([], fontsize=10) plt.title('Taxi GPS track point count', fontsize=12);

# Plot the grids fig = plt.figure(1, (16, 6), dpi=150) # 确定图形高为6，宽为8；图形清晰度 ax1 = plt.subplot(111) datatest.plot(ax=ax1, column='VehicleNum', legend=True, cmap='OrRd', scheme='quantiles') # plt.legend(fontsize=10) plt.xticks([], fontsize=10) plt.yticks([], fontsize=10) plt.title('Taxi GPS track point count', fontsize=12);

2.载客状态和空载状态下的od订单图

traj_deliver = tbd.points_to_traj(data_deliver) traj_deliver.plot()

traj_idle = tbd.points_to_traj(data_idle) traj_idle.plot()

3.依赖keplergl第三方包绘制可交互式的可视化动画

keplergl是由Uber开源的一款地理数据可视化工具，我们可以在Jupyter notebook中使用该工具让我们的数据可视化做到美观。使用前需要先安装，安装教程可参考该篇文章：点击跳转

keplergl官网：点击跳转

①可交互式热力图

# 可视化数据点分布 tbd.visualization_data(data,col = ['Lng','Lat'],accuracy=40,height = 500) #accuracy是栅格大小，数值越大表示一个栅格涵盖地图面积越大

②可交互式OD订单图

# 可视化数据点分布 tbd.visualization_od(oddata,accuracy=2000,height = 500)

注：同时使用Ctrl和鼠标左键可移动观看视角

③可交互式的视频动图

tbd.visualization_trip(data_deliver) #一天当中的所有载客轨迹

总结

大家按照上述步骤进行项目，大问题是没有的，之前我遇到的主要问题就是transbigdata的包找了半天，其他的一些如各个包版本之间不适配的问题，可以直接百度解决。本项目的主要难点就是要去理解数据处理的一些函数，这些函数的大概功能我已经在注释中和内容中阐述了。如果有小伙伴想更加深入的了解函数的原理，可以去看transbigdata的源代码，这样可以更加直观的了解这些函数。

补充

如有其他问题，请私信我，谢谢。

上一篇：超详细的实现上传文件功能教程，文件上传实现。

下一篇：C语言课程设计