中国城市规划学会官方网站

您当前的位置:中国城市规划网>学会> “大数据与城乡治理”研讨会> 正文

裘炜毅:手机大数据在城市综合交通规划中的应用

2015-06-08 09:14 来源:中国城市规划网

编者按:

2015年5月23日至24日,由中国城市规划学会承办的中国科协年会分会场“大数据与城乡治理”研讨会于广州举行。上海川昱信息科技有限公司董事长裘炜毅作了题为《手机大数据在城市综合交通规划中的应用》的报告。裘炜毅董事长从手机大数据的类型和特点着手,提出手机大数据能够获取连续交通数据并应用于城市交通规划中。通过对湛江案例实践,他重点提出了手机大数据运用于城市综合交通规划时的三点冷思考,他提出需要将问题导向的规划与大数据结合起来,大数据分析模型及大数据分析结果验证齐头并进,使大数据不仅仅是一种热潮,而是认知、感知城市的重要能力。

一、手机大数据与城市综合交通规划

1、什么是手机大数据

手机大数据有信令数据,依托运营商建立的信令监测平台,采集手机与基站之间信令数据的交换,通过后台关联、合成和解析,获到手机匿名ID、事件类别、时间戳、基站编号、位置区编号等信息,包括通话、非通话期间的事件数据。更多的是手机话单数据,依托运营商建立的计费系统,记录匿名手机ID和计费有关的通话、短信事件信息、发生时间、基站编号、位置区编号等信息。

手机数据采样率极高,基本上每个城市的手机数通常会超过这个城市的人口数,这是目前的情况,所以提供给我们很好的一种感知一个人在空间上行为的一个很好的探测器,这是目前的技术发展情况。目前手机技术的定位精度并不理想,目前基于基站的定位精度基本上在100米左右,在市中心范围,在市郊的话大概在500到1公里左右。现在很多的一些研究,比如在交通规划领域里,我们要分析一些交通的TAZ的区域是要远远大于这个的,如果我们现在要去分析一些建筑物,或者是用一些地牌分析的话,这里面还有很多定位分析的方法要去做研究。手机方面数据采样频率,实际上是一种不均匀的采样,并不是每时每刻都在采用,需要有事件来触动才能获得采样,所以它目前跟GPRS比较起来是一种低定位的精度的,但是是一种不均匀的时间采样,但是随着现在4G的普及,可能在不远的将来,可能在一到两年,我们应该可以从运营商获得更高精度的这种定位采样数据。这些海量的数据对我们分析一个城市的人的某种特征产生了很好的数据基础,比如一个1000万人口的城市规模,每天运营商所产生的数据可能是上亿条以上的积累,目前这个数据是海量的,而且数据具有连续性,基于这些数据,我们在思考这些数据可以给带来了什么,可以给我们分析什么。

2、手机大数据与其他交通调查技术对比

手机数据现在跟一些传统OD调查包括IC卡,这些视频的技术,通过比较来看,各种技术都是在不同的时代特征下所产生的技术,只是不同的技术有各自特点、属性,或者是相应的一些数据。所以这里也并不是说一项数据可以解决所有的内容,我们需要去证实这个手机数据到底给我们带来什么。

我们梳理了一下团队在过去6到7年之内,跟一些规划部门做的合作。目前利用手机数据,特别是对连续的交通数据上可以获得什么样的交通数据,交通数据因为本质上跟人有关可以跟城市规划产生很好的紧密的结合,包括全市的人口的空间分布,人的出行的特征,出行的时长,出行的距离,早晚高峰的情况,包括一些特定区域,坐轨道交通的人从哪里来的,到哪里去,这些都可以利用手机数据获得。所以我们现在这样一个信息化的企业也在跟运营之间通过进行一些商业合作的模式,去推动这种运营商的数据向更多的研究机构开放,因为运营商现在不是很愿意把原始的裸数据开放出来,它想转型成提供数据服务,所以现在目前这种信息化的企业试图把这种数据进行进一步的包装,但是包装完之后的数据不能把更多的信息屏蔽掉,必须把原始的数据保留住,又要规避掉运营商对于现在的匿名数据不能往外泄露的这样一个过程,我们中间要找到一个比较好的节点,怎样让后续的规划部门,包括一些规划设计单位能够更好地利用这些数据。目前我们做的实际上是多方的力量来协同,这样才能把数据进一步开放,关键是要有一个好的商业模式才能推动这种数据的开放。打个比方,我们以前在做项目的时候,通常情况是利用一个强势的政府跟运营商在谈,我们要进行数据资源的交换,让你开放出来,开放出来之后,我们去做项目,当然这个肯定是原来的模式。到了今天,更多是一种合作共赢的商业模式来推动这种数据的开放,但是前提条件是个人隐私是不能侵犯的。同时这些数据也可以在城市的交通规划里可以做一些出行的调查,扁平区域的分析等等。

二、湛江实践案例

1、湛江市概况

如果用这样的数据,可能在一个城市的交通规划里能够给我们解决什么问题,今天举的这个例子是广东湛江,其他的城市包括北京、上海和天津这些城市也在陆续开展这种类似的工作和实践的工作。我们当时分析的数据,湛江有460万人的用户,有11.2亿条的位置记录,2.33万的基站,平均在市区里有210米的覆盖半径。我们跟规划设计单位合作,来共同沟通这个需求,我们应该处理在什么阶段。通过这些数据,我们做了这样有意义的尝试,包括湛江的一些常住人口和就业人口的监测,以及湛江市城市的职住平台。当初这个工作都是为了支撑湛江市综合交通规划这样一个项目,包括各个区域之间职住比的平衡分析。可能对于我们做信息化的“外来和尚”来说,对于这个数据背后的解读是困难的,我们只能把这个数据做出来之后,让规划师去解读这个背后发生的一些问题,这是湛江市职住平衡的分析,包括不同区域之间,目前的常住人口、工作人口和不同区域的人口密度,这种新技术可以对原有传统调查方式提供有益的参考。

对于湛江市全市主体客流走向的走向分析,我们利用运营商2.33万的基站来分析,这些手机在这些基站之间是怎么运动的,更多地想获得整个城市里人在空间的主体流向和通道。在交通规划里,更多地对一些轨道交通,BRT一些线路的基础设施的布置,提供一个比较好的数据的需求和分析。同时对湛江市各个区域的之间的活跃度进行了分析,包括各个区之间出行的距离,平均出行次数,包括出行的比例。同时我们也开展了对湛江市整个对外交通客流的走向的分析,在各个方面人的出行规律,这个工作是我们利用了运营商的数据,大概我们就花了一个月的时间,就给相应的规划部门提供了基础数据支撑的工作。还有一个案例,我们分析了人民大道上出现的人都是从哪里来的,这些从原有的一些调查手段是很难获得的,我们把它成了若干个四个区段,每个区段到底有多少人经过这个通道的,以及经过这个通道通勤的客流占百分比是多少,以及经过这些通道在周边客流的产生量,比如在人民大道上所产生的客流量,一天客流量是96万左右,接近100万,但是在这个沿线两公里产生的客流量是56万,这些通勤的客流里,占了50%以上,当初分析这个主要是为了支撑在这个通道上要去做一些公交专用道和BRT项目的测试,给规划部门提供数据支撑。

三、思考

这些案例更多是用实际的项目和工作来展示手机数据能给城市的规划和交通规划提供什么样的数据,但是我们在做的过程中也碰到的一些问题。大数据时代,突然发现数据多了泛滥了,这个时候有很多学者提出来应该有一个思考,因为有的时候数据会误导我们,我们发现社会上的这个真正的值是永远不可能知道的,一个城市到底有多少人,这个问题是无法回答的,没有人可以清楚这个城市有多少人,我们有的时候要分析一个城市有多少辆车,这个问题是无法回答的,只是我们用更好的手段和技术去接近这个值而已,这个过程可以回答一个问题,这个值是不是合理的。现在目前做的一些手机大数据的分析,实际上是基于一种行为的假设分析,目前为止确实还没有很多的理论方法出现,需要更多跟一些高校的人来合作,把这种理论往前走,可以进一步推动这种数据在这个行业里的应用。所以要思考三点,第一是手机大数据的研究方法,一种基于行为假设的分析方法;第二是手机大数据的验证方法,空间分布检验和交叉检验方法;第三是手机大数据研究的驱动路径,需求导向或问题导向。

有关行为假设的问题,我们现在看到很多的研究都试图用手机数据去做一些人的夜间分布和白天分布的时间,想近似地知道夜间的人口分布,是怎么居住的,白天相当于是就业岗位,这是一个很正常的逻辑。但是我们在做的时候发现,这是一个假设,假设什么样的夜间你认为这个人是住在这里的,什么时候白天是在这里工作的,这里有一堆的行为假设,你需要用数据去分析验证。比如我们会按照不同的行政区域去分析夜间的手机在两个星期里有50%的时间在这个地方出现,是8天出现,9天出现,还是10天出现,来看到这些数据的敏感性的分析。实际上这个敏感性的数据分析才能反过来验证我们曾经假设他住在这里是否成立,但是在这个过程当中你是很难去验证的。

在一些敏感性的分析上,包括白天到底逗留多长时间。同样的方法,我们用了这些相应的数据来分析白天人在空间上的出行,我们发现白天和夜间同时出现了这个手机,实际上这个值设定得越严格,你所能采集到的样本就会越少,但是这个样本的可靠性是越高的。这个是回答了一个城市总量的人口问题,是一个困难的问题。但是在空间分布层的问题是可回答的,因为手机数据做下来发现,从40%的抽样到80%的抽样的时候,它在空间上分布上的特征还是符合一个大数定义的,但是你要做到绝对值,存在着大量的扩量问题。先提出一个假设,再用数据来验证这个假设,通过敏感性的分析当中,你来找到你认为可能最合理的值。这是一个出行的特征,也是同样的问题,出行的距离怎么定义,在这个过程中,我们跟上海规划院一起分析了上海目前6万房间之间人的职住分离。这个工作为什么做,前一段时间有一些微博上发布的文章认为上海这么堵,是因为职住分离不清楚,所以造成了大家突然发现职住分离不清楚,但是研究机构发了一篇微博的文章之后,造成了轩然大波,所以我们跟规划院和规划局拿这个数据做验证分析,但是大家在提供这个数据的时候从来不会告诉你这个数据是怎么定义的。再往下做的这样一个工作,通过居住地和就业地的空间联系分析显示,中心城及周边地区岗位90%以上来自中心城及周边地区的常住人口。其中,内环内的岗位90%左右来自外环内人口;内外环间岗位70%来自本区域;周边地区岗位70%以上来自于本区域。值得注意的是,近10年来周边地区增长的主要是外来常住人口,到内环内就业的人数仅占周边地区总人数的12%。内环内和内外环间的工作岗位,来自居住在周边地区的人仅占9%和14%。但是这个结论可能跟一些研究机构所研究出来的数据的结果不一致,这个是我们跟上海规划院做的一些中间成果,下面还要做进一步的验证。在验证方面,我想提两点,目前在空间的数据上,目前对人口的数据,更多的只能采用人口普查的数据,采用2010年六普人口数据,在行政区层面进行对比验证。

这个也是在分析一些上海中心城区周边一些居住地和工作地通道的不平衡,但是这个工作做的时候,我们要去做一些交叉检验,利用掌握轨道交通出行的客流特征,我们发现在上海北部区域和内环中部区域,大量这种潮汐性的通勤的,从手机数据已经反映出这个特点,同时用轨道的数据做验证,发现也是符合同样的规律。你需要用各种数据源之间做交叉检验,这样才能进一步证明用大数据的训练方式得到的数据的可信度到底是多少。如果你今天问一个问题,你出来的数据准确率是85%还是90%,我个人感觉本身这个问题是不成立的,因为永远不知道这个真正值在什么地方,但是毕竟有一个值。

最后想说的一点,大数据的分析并不是盲目的,而是有问题导向的,比如想要去分析交通设施引导这个城市出行格局的变化,因为这样一个问题我们才会去分析比如金桥这个区域的工作地岗位和就业地岗位之间的分布,是不是沿目前上海轨道2线这样一个轴向分布,所以它是一个问题导向。大家试图合作做一个出行分布的模型,目前利用大数据的数据分析下来可以发现,上海不同的地块,包括陆家嘴、金桥等等,不同的区域之间在不同的空间范围内有这种人的工作地和居住地的分布特征是完全不一样的,这也是对所做的日常的工作里,用一些经验的模式去做城市总体预测的话,它会带来偏差,这也是我们现在必须要去面对的问题。未来我们要找到一个好的节点,怎么样用这个大数据把问题的导向明确出来之后做一个比较好的清晰的定义,定义好之后有一个好的验证的方法,这样才能把大数据在城市规划和交通规划中进一步地往前推广。

(根据速记整理,未经专家审阅)