【】当代城市是由人、机、物等组成的复杂的日常生活系统软件。,期间生成的数据信息可以大量描述。
很难收集、整理和分析这些海量的数据和信息。浙江大学计算机学院副院长陈伟教授在阿里云奇会议上分享了他的精英团队近年来在大城市互联网大数据和数据可视化方面的一些研究成果,探讨了大城市数据信息科学研究深度学习的必要性。
科学研究普及程度的可见性分析
今天和大家分享一下浙江大学数据可视化与可视性分析工作组近2年的科研工作。
首先给大家两个定义。
一、什么是数据可视化?事实上,数据可视化是将数据信息转化为人眼可以识别的视觉标记,并根据双眼提高人脑认知能力的一种方式。数据可视化实际上是人机交互技术和虚拟现实技术应用中的核心技术。
二、什么是可见性分析?2005年,英国反恐资源分析出现了一些关键问题(DT Jun注:英国国土安全部后来在中国成立了数据可视化与分析管理中心),随后演变成了一门新课程,名为可视性分析。本课程将数据可视化、人机交互技术和大数据挖掘相结合,产生一种新的综合思维模式来解决困难。
2005年初,我转向大数据可视化层面的科研。特别是近年来,人工智能技术的普及,促使大家考虑尽快做好智能数据可视化,分析一些难题。
我们今天要向大家展示的是我们所做的科研工作的一部分,重点是我们近年来所获得的一些真实的、微小的数据信息。
可视化群组部分和手机通话之间的关联数据
第一次科学研究是基于手机上通信基站的数据信息。简单来说,每个移动用户,他在哪里,并不准确,只是一个通信基站的ID。
客户会在一些通信基站停留和移动,这其实反映了大城市群体的流动性。此外,大家还得到了客户之间的语音通话数据信息。有了这种数据,大家顺理成章的会想:这个大城市的群体是怎么移动的?自然是基于通信基站的移动性,不是汽车,也不是GPS。
该图显示了设计方案的四个主要视图。左上角是以手机上的通信基站为管理中心的群组移动的运营规模分析,以及其随时间演变的趋势分析。
左下角是一张热图,显示了不同地区的相对密度和人口分布。
右上角是传统的统计分析数据可视化,根据统计分析表进行分析。
右下角是传统的大数据挖掘方式,结合聚类算法,科学地研究社交媒体关联和群体移动性之间的规律性,这不能主要通过统计分析来表达。
这是另一个给大家的视频截图:
在整个页面上,每个人都被分成许多主要视图。主视图本身由WebGL加速。背后是各大城市几千万人手机上每一分钟的数据信息,以及时不时执行的发送消息、电话记录等数据信息的支撑点。
在大家看来,数据可视化的一个关键作用就是给人一种提醒,一种判断力,一种如梦初醒的感觉。
必须注意的是,今天呈现给大家的所有例子都是基于二维的,因为大家都觉得虽然在一些指挥调度或者城市规划建设中广泛使用三维,但是在一些非结构化、时间性和非时间性的数据统计分析中,二维和高维的室内空间数据统计分析更合适。
在这个主视图中,我们应用了开源系统的OpenStreetMap作为基础图,并在此基础上做了累加和WebGL加速,从而保证了即时呈现。
根据手机信令数据信息可视化群组移动数据
然后我们将讨论在进一步探索手机信令数据信息时,如何观察群体的移动性。
如何考虑群体流动性?我们发现,在20世纪80年代,中国的一些人一直在科学地研究张量场和势流等基础理论。我们觉得大城市人口密集区科研群体的流动性也可以按照势流来表达和描述,然后采用一些外扩散和热对流的方法来表达。
得到手机信令相关的原始记录后,要进行整理和清理,然后转换成矢量场。什么是矢量场?比如风往某个方向吹,其实就是矢量场。
将向量场应用于群体流动性分析,可以在很大范围内描述群体的宏观经济流动性。下图是大家合作的阿里巴巴集团即时移动的大数据可视化截图:
在地图上,群体的移动性是在路面上生成的。在早、中、晚高峰期,具有一定范畴的宏观经济势流特征。按照数据可视化的方式,可以让客户看到群体运动的方向,以及它的分叉与组合、集聚与外部扩散。
每个人在这个阶段的数据信息都不会那么准确,因为我们都规划了一定的区域,让几个小方块来测量和统计分析群体的移动性,如果我们有GPS这样的数据信息,就可以尽快利用类似人工智能算法的技术来检测群体中会出现的爬行情况。
理论上,如果我们的数据和信息收集得好,我们可以提前防止踩踏事件。
可视化数据搜索,从出租车运行轨迹中获得实时路况
第三个例子是根据出租车运动轨迹的相关数据信息,可视化搜索实时路况。
2013年,杭州共有出租车8300多辆,这些出租车的交通量约占所有大城市交通量的7%,因此出租车轨迹可以反映城市公共交通的某些情况。
根据出租车的数据信息,我们必须有一个能够及时反馈的查询工具。
虽然可以写一个程序流程,用Excel开始搜索,但是一定要保证可以随时搜索,可以比较不同的区域,所以一定要有大数据可视化页面,因为这是一个及时的分析工具。
大家课题组的关键是把室内空间的数据信息转化为数据可视化的交互页面搜索,给客户展示一个更简单敏捷的数据信息专用工具。这背后一定有大数据挖掘优化算法。
这里看来,下一个人的原始记录的状态:
每个人打开一个文档需要十分钟才能得到原始记录,但是在每个人解决了数据信息并创建了数据库索引之后,客户的搜索也保证了即时性。
根据这种数据信息,你能保证什么?
我们可以对比双向车道和潮汐车道,也可以分析交通出行中的各种困难,比如路口、拥堵等。
比如下图是杭州天目山路和曙光路的情况。是两条平行的人行道,但由于曙光路实行潮汐车道,从图中可以看出曙光路的延误情况相对较轻,从右边的散点图可以看出曙光路的交通量大于天目山路(主干道)。
下面的视频截图显示了杭州8300辆出租车的运动轨迹,以及根据这些数据信息对交通流量和交通状况的一些分析:
将深度学习引入城市形态部分的视觉表征和分析
数据信息的可见性搜索完成后,我们觉得可以选择一些设备学习方法来描述各种信息内容。
比如最近做了一个简单的实验。众所周知,最近出现了一种全新的word2vec模式,是数据信息的深度神经网络表达。我们还将这种方法扩展到非结构化数据的解决方案。用于时间、群体和出租车运动轨迹的统计分析。然后可以帮助你尽快观察群体部分的运动。
根据不流畅的信息内容
经过仔细考虑,客户也可以从这里找到一些有趣的信息。
以下是您的数据可视化页面的一些截图:
根据深度学习的介绍,可以探索手机上通信基站的相似性关联,市政道路的相似性,手机上通信基站的各种特性与道路的相关性分析。我们可以更强烈地探索群体和大城市地址之间互动的整个过程。
大家认为这种信息内容的数据可视化不仅仅是为了让客户看到,更是为了掌握三元室内空间中人、机、物之间发生的事情。
人类人际关系的可视化逻辑推理和对映体数据信息的相关性分析
最后说一下如何对我的人际关系进行可视化逻辑推理,如何对不同结构特征的数据信息进行相关性分析。
每个人都期望根据例如三元室内空间的微博数据、手机上与通信基站相关的位置数据信息、出租车数据信息来推断身份不明者的人际关系。
先说个例子。有一个怀孕的妈妈,在生宝宝前后根据手机连续发了七条带有零件的新浪微博,但是新浪微博中的空间信息部分并不准确,每个人恰好都有这个时间范围内的手机通信基站和出租车运动轨迹的数据信息。按照简单的方法,我们可以在1-2分钟内快速找到这个怀孕的母亲住在哪里,她的丈夫是谁,她的手机上有哪个身份证。
关于示例视频捕获的查询:
针对这种关联的分析,必须依靠人和设备的智能组合,让客户根据时间轴、自然地理和时间的描述,快速迭代地找出四维室内空间中会产生信息内容影响的人物(公安机关相关行业的专业术语)。
此外,根据这种分析,我们还可以找到移交出租车的位置信息和群体的出行规律。
做那种分析,人们自然不想破坏隐私保护。相反,他们明白人们实际上是在做关于个人隐私保护的大数据可视化。我们期待着一种方法,让我们的客户快速找到某人的人际关系。注意这个阶段并不是全自动保障,而是需要将人的基础知识和工作经验融入到设备中,按照数据可视化的交互技术迭代更新整合,从而发现一些真相。
然后,我们将讨论如何分析对映体数据的相关性。
根据不同的案件线索迅速聚集在一起,我们可以很快成为柯南道尔。根据不同案例线索的收集,进行数据信息的关系逻辑推理分析。这里我还是举两个例子。
第一种情况,一个人去新浪微博说某个时间打电话丢了手机。30分钟后,他过去打电话,发现手机关机了。谁会从他手机里拿?根据数据信息,三分钟之内就能查出来。它可以从数百个出租车轨道上快速匹配。最后,所有的恶性事件都恢复了:原来是出租车司机把手机拿走了。
下图是从某个新浪微博到最后精准定位到一个出租车司机的逻辑推理全过程:
(说明:大城市数据信息的多样化导致了多源对映体数据信息,不仅产生了数据量,还产生了非常大的数据信息学习培训成本和数据统计成本。本文中由创建者精英团队创建的一组实体模型可以提高数据统计的效率。通过数据可视化的手段,客户可以简洁直观的设定数据统计的总体目标,使用不同的主视图展示搜索结果,合理的提高了大城市数据分析的效率。这个图展示了一个恶性事件的分析逻辑推理的全过程。)
第二个例子是关于一场车祸。交通事故发生前,可以快速分析所有的天气情况、路况等交通堵塞情况。此外,手机信令、出租车运动轨迹、微博数据、Google视频、地形图、街道社区等各种在线信息内容。可以关联不同的数据信息。
大家都认为互联网大数据的第一步是& ldquo保存& rdquo(保存),第二步是& ldquoPass & rdquo(关系),第三步是做一些分析。
进一步,需要进行大量的大数据挖掘,引入深度学习和人工智能技术等优化算法,使我们新的智能城市基础设施走得更远,产生一个以数据信息为管理中心的智能园区。
【/s2/】注:以上内容根据陈巍教授在杭州17年阿里云奇大会上的纪实发言整理,略作剪辑删减。视频图片都是他们现场PPT出来的,已经自己检查过了。本文仅是作者的观点,并非DT的财务观点。
【/s2/】希望可以分享很多数据和信息,讨论话题,分发?在微信微信官方账号DT数据信息员(ID: dtdatahero) &ldquo后台管理回复;数据信息社区营销& rdquo;,可以加入DT数据信息社区营销。
数据信息主文件
本文数据信息员陈伟,浙江大学电子计算机科学与技术学院副院长、专家教授。中国杰出青年& ldquo“十三五”规划;中国重点产品研发项目的重点& ldquo云计算技术与互联网大数据& rdquo手工组和全组权威专家。科研兴趣是数据可视化和可见性分析,毕业论文发表在数据可视化世界顶级会议IEEE可视化上。