吴海山:百度时空大数据的挖掘与应用

2015-06-12 18:25:40

摘要:   6月10日,北京国家会议中心,以构筑地理信息新生态为主题的2015年全球地理信息开发者大会 (WGDC)在此拉开帷幕。WGDC自2012年起开始举办,四年时间里,伴随着中国地理信息产业的快速发展,WGDC已经成为位置与

  6月10日,北京国家会议中心,以“构筑地理信息新生态”为主题的2015年全球地理信息开发者大会 (WGDC)在此拉开帷幕。WGDC自2012年起开始举办,四年时间里,伴随着中国地理信息产业的快速发展,WGDC已经成为位置与空间领域最具影响力的技术创新盛会。

  6月11日,地理信息开发者大会智慧城市分论坛开幕,会上百度研究院大数据实验室数据科学家吴海山先生做出了题为“百度时空大数据的挖掘与应用”的精彩报告。以下为演讲实录(未经本人确认)

吴海山:百度时空大数据的挖掘与应用

  吴海山:大家上午好,很高兴有这样一个机会和大家分享一下百度研究院大数据实验室坐的和百度时空数据挖掘的一些研究和进展。首先,给大家看一下,时空大数据在百度来讲都有哪些和时间和空间相关的数据?百度主要是分析和挖掘时空数据的一些研究,首先看一下时空数据就是典型的时间和空间有关联的数据。线上我们有用户的一些搜索数据,然后每天大家可能会用百度地图,有每天上亿次的百度地图线上的搜索请求,现在每天超过150亿次的定位的请求。对于定位的请求,我们可以累计出来用户时空和时间的关联的数据。

  这个数据长什么样呢?这个数据是我们可视化出来,北京一天24小时苹果手机用户定位数据的可视化,大家可以看到,从白天到晚上这样一个北京整个城市苹果用户的动态的变化。这个就是在白天的时候很明显有一个趋势。另外我们可以单独把整个在全国范围内用iPhone6的一些土豪的用户,在全国的分布大概是什么样的,这个展示了一下整个中国,现在我们发现有将近2000多万iPhone6的用户,他们分布大概是这个样子。这个很明显能够看出来,因为iPhone是一个土豪的代表,所以和经济关联,直接看起来有一些明显的特征,比如像江浙、广东这块区域,人用的比较多一些。具体的联系是什么样的?我们做了iPhone6的用户和GDP的关联,对大多数的省市呈非常好的线性的关系,这个iPhone6可以作为用户购买力一个很好的属性看地方经济的发展。

  刚才只说了一个全国的iPhone用户的,iPhone用户和Android用户的对比大概是什么样的?我们把北京苹果的用户和Android用户做了这样一个对比的分析,很明显看出来,对于市中心区域,郊区用Android的比较多,市中心用iPhone的比较多一些。这个图是卫星的一个夜光图,他们觉得可以反映经济的发展,比较暗的是北朝鲜,对应的是南朝鲜,北朝鲜和南朝鲜,他们在卫星云图上的光亮有非常大的差异。是不是可以用夜光的图看地方经济的发展呢?卫星的云图有很多的问题,比如这个地方的灯光,可能在卫星云图上产生不饱和的现象,我们用百度的数据看这样一个结果。我们把春节除夕晚上一天,所有在百度地图上产生定位的人用户的点,放在地图上,我们没有做任何下面的渲染,这些定位的点可以很明显的看出来,整个中国空间上的分布趋势。

  具体细节是什么样呢?比如山东的某一块区域在除夕晚上定位的结果的分布,很明显看出来,这个数据也是仅仅把定位的点打上去之后,在经济比较发达的地区,像上海、江浙,甚至像郑州点特别亮,因为是除夕,像山东、河南外出打工的比较多,但是春节的时候会回家,所以山东的时候很多小点变得特别亮,可能是返城务工的一些人。

  看一下这个数据和中国经济的关联,有这样一个数据,可以看到这个人每天在什么地方工作,去什么地方出差,或者去什么地方旅游,或者是不是换了一个工作,从北京到上海,根据这样的数据,我们建了整个中国的城市网络,大家可能知道,百度网页排序有一个算法,叫PageRank算法,比如一个人从北京到上海的出行,我们认为它是产生关联,根据这样一个分析,可以把整个中国城市的Network构建出来,而且知道每个城市在网络里面的重要性是比较靠前的。底图是代表我们算出来的CityRank,这个PageRank值我们发现和地方的GDP有更加好的关联性,关联性大概在0.8左右。下面的GDP,横坐标是上面城市网络里面的一个重要的属性,然后我们觉得这个类型的值,它在网络里面的流动性,反映了城市的经济活力。另外是我们用城市流动人口分析了一下城市的“鬼城”,我们怎么样根据百度定位数据算出来这个城市人口净增量变化的趋势,判断这个城市未来是不是“鬼城”。

  比如这个城市,我们把它的净增人口量做了一个分析,把累计净增量计算出来之后,发现有一个变化,比如天津的滨海新区,郑州的新区,所有的“鬼城”区的人口一直在上升,我们觉得可能是对比如房地产有意思的一个结果,我们认为将来如果净增率下降,将来问题可能出的比较多一些。

  刚才上面一些数据怎么样用百度的数据分析一些社会科学的研究,主要是比如和地方经济,或者其他一些量化的一些研究。刚才那些研究,我们最近就说是想去定义一些经济的指标,来去分析或者借鉴模型预测,怎么样用百度的数据看能不能预测这个地方,或者整个省市将来的经济的走势。除了这个应用之外,还可以把百度数据用在其他的用处,比如百度用户行为的预测,也线上的搜索数据,还有线下的定位数据,怎么样预测线上线下的行为,最终预测你在将来的出行,这几个结果是比较典型的,我们在公司内部已经内测,比如娱乐、休闲、需求,或者购物需求,还有旅游需求。

  重点讲一下我们分析的旅游的一些结果。这个是除夕一天的结果,分析出来北京一天旅游人口的分布。红色代表北京本地人的分布,蓝色的代表我们根据定位信息分析出来的外地游客的分布。明显看出来,外地游客主要集中在天安门等这样的景点,这儿有一个是本地人经常去的景点,有一个人外地人经常去的景点,大家推测一下,哪个是本地人经常去的景点?本地人他们旅游的行为有非常明显的不同,除了这个之外,我们还分析了一下,不同手机型号用户对旅游经典有没有一些特征偏好,比如看一下Android用户和IOS用户,左边比如是王府井,后海,还有艺术中心,还有蜡像馆,还有美术馆,其实左边是IOS用户经常光顾的景点。

  根据用户信息,他的一些使用偏好,他的设备等我们可以做一个更加智能化的中国去哪儿的信息,比如你家住什么地方,在什么地方工作,经常去什么地方,你的消费能力是什么样的,根据所有的信息做更好的个性化旅游的推荐,这个就是我们根据之前分析的结果做的一个DEMO。我们这个能够自动检测出来比如外来游客来北京旅游,我们可以根据你出行的信息,给你做一个推荐,比如从天安门开始,还可以对北京游客做这样一个旅游的推荐,有这样一个推荐,大家在周末出去玩,可能不会出现选择恐惧症的情况。

  另外一个预测,我们是根据用户线上线下的行为做用户的O2O的行为预测。大家可能经常会用手机的百度地图,你在百度地图搜了一个地点之后,我们会根据你将以前出行的信息和你在线上其他的搜索信息预测你搜完这个位置之后,是不是会去,什么时候会去。比如你下次用百度地图的时候,搜这个地点的时候,比如搜这个餐馆,预测你接下来一两个小时会到达,在这一两个小时之间,会提前打通你线上和线下的服务,比如到海底捞,是不是可以先替你点单,安排停车位的服务。我们提出的模型,可以把准确度提升。

  这个是用户、位置和服务的关联,比如对星巴克、海底捞的用户,比如对星巴克可能是周一到周五大家去的概率更高一些,对于海底捞这样的店,周五、周六的比例远远高于星巴克。除了空间上的分布,我们发现用户对不同的地点,他们对距离的容忍度也是不一样的,比如对星巴克,会选择相对比较近的,对海底捞大家可能一般会做提前的一个规划。根据这样一个结果,我们可以看用户不同地点服务时间等的分布,这个是可以看出哪些人对海底捞吃饭有需求,根据这样的结果,我们首先建立一个模型,分析每个现有的海底捞的店,根据用户对距离的容忍,分析出来每个店猛攻覆盖的范围大概是什么样的。如果把能够覆盖的范围去掉,剩下的是现在没有满足的一些需求,但是这块人有很强的海底捞的需求,但是附近方圆几里之内没有任何一个海底捞。

  根据这样一个结果,怎么样把没有满足的需求,找到这些点,比如这个就是我们根据一些没有满足的需求,把这些需求检测出来,然后我们把这些需求再用一些算法去捉到一些侯选的位置,我们认为这块位置有很强的需求,但是当地的地点又没有去满足。我们再根据其他的一些交通流量,或者交通可达性优化我们的结果,最后可以得到一个更好的。为了验证我们这个结果,我们现在比如用海底捞的一个石景山店,红色的点代表我们这个算法能够预测大的一个点,其实橙色的点代表实际的海底捞分店的位置,这是一个海底捞的例子。还有像全聚德的例子,结果也比较好,另外一个是星巴克的结果。这是用户和位置以及服务优化的结果。

  除了这个之外,我们还做了一些智慧城市的研究,怎么样让百度数据做智能的城市管理和服务,这是我们在上周云计算大会上展出的一个DEMO。第一、智能城市的人口管理,这是去年外滩有一个踩踏事件,我们根据百度搜索和百度定位做的一个分析,我们发现可以用百度的一些数据做一个提前人口流量的预测,我们不去预测这个事件会不会发生,但是提前对人口流量产生很好的预警。

  我们发现很有意思的现象,一般的用户到访一个地点之前,可能会做路径规划,先用百度地图搜一下,然后乘坐交通工具到达这样一个地点,所以有一个时间的提前性。我们把地图的搜索和人群对某个地点具体流量做了相关性分析,我们发现搜索流量的高峰会超前实际到达流量高分的0.5到2个小时之间,所以我们可以对这个最高峰值做一个预测,这个可以分析这块人实时的变化,然后还可以预测接下来一两个小时的人口流量的变化,如果它超出一定的具像,我们可以做出一定的预警。

  我们把北京划分成不同的网格,我们看不同网格与网格之中的关系,我们还可以根据百度定位数据分析出来这些人上班也好,出行也好,乘坐的交通工具是什么样的,根据这个看出来北京不同市区的一个网络的结构图,比如哪些人住在朝阳,可能去海淀上班的图。

  另外,整个中国城市网络的变化,这个城市网络,基于人口流动变化,我们分析了一个动态的城市网络,下面这个是我们看这个城市的人口流动的变化。我们接下来会把人口的流动分成几类,比如有一类可能是旅游,有一类可能是出差,还有一类我们发现比较有意思,也是比较重要的,有多少人是因为换工作,换了一些不同的地点,我们认为换工作可能更能影响这个地方经济的指标。

  这个是我们做的几个DEMO,在不同媒体上报道,最近云计算大会我们在CCTV做了一个报道,这个DEMO有一个1分钟的视频展示。这个模块是人群的管理,我们把北京划分成不同的网格尺度来实时监控人口的变化,除了看网格,还可以分析某一块区域,比如现在重点关注工体这一块,我们发现这一块人口过了一会儿之后可能人口会变得越来越多。我们根据百度搜索数据发现这块可能有一个苏打绿的演唱会,下面是回龙观和天通苑,这个是网格化之后,看有多少人在这个地方工作,这个网格和其他网格在空间上关联的关系是什么样的。我们同样来看有多少人住在这个地方。另外,我们看整个中国网络,一个整个中国实时人口的变化。这个人口每年的迁入迁出量是什么样,把这个数据和地方的GDP指标做一个更好的关联和预测。

  我们不久之后可能推出来一个研究,怎么根据线上线下的工具做一些商业性的服务,比如酒店一段时间的入住率很低,我们可以从地图搜索,看他之前的客户大概特征是什么样,然后他没有去这个酒店,之后又去了哪个购电,丢失客户又去了哪些地方,怎么晚会这些客户,这是我们接下来做的一个工作,可能在接下来会推出,这主要是做2B的业务,大概是这样的,谢谢大家。

[责任编辑:唐天石]
声明:泰伯网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。

第一时间获取位置服务与空间信息领域新鲜资讯、深度商业资本观察,请在微信公众账号中搜索「3sNews」or「www.3snews.net」,或用手机扫描左方二维码,即可获得3sNews每日精华内容推送和最优搜索体验,并参与编辑活动。

猜你喜欢

泰伯网官方微信

泰伯智库官方微信

泰伯网官方微信

京ICP备05007579号 | 经营许可证编号:京ICP证110169号 | 京公网安备11010802009008 | Copyright © 2005-2015 3sNews.net