首页 >  关于大数据系统软件的思考与清华实践
关于大数据系统软件的思考与清华实践

11月8日,由神州控股、神州信息、神州数码集团共同主办的“数字中国2019——技术年会”在北京数码科技广场隆重举行。清华大学软件学院院长王建民先生出席大会并发表主题演讲《关于大数据系统软件的思考与清华实践》。

以下为王建民教授演讲实录:

什么是大数据呢?根据维基百科的定义,它是一个包罗万象的概念,如果一个数据集规模或处理复杂性,用传统的数据处理系统难以驾驭,我们就把这个数据集叫做大数据。

大数据软件技术

数据要变现和应用,数据变现的过程需要软件和计算力。从软件的角度看,大数据分析有很多方面,其中一方面是解决数据大的问题。当前,有很多大数据软件系统,例如Google大数据软件栈、Hadoop的生态圈等,他们都围绕着大数据软件形成了一种生态,这样的生态纷繁众多,其中很多都是大家耳熟能详的,也就是说大数据的软件不是一天冒出来的,它是一个发展的过程。

传统的数据处理、消息处理以及数据监控在原来“小数据”时就已经有了相应的软件,今天是把其放在大数据的软件生态里。所以当年在大数据的白皮书里,那些“大脑袋”问我们的大数据是不是要重新造一些轮子出来?显然不是。我们要把传统的数字技术,包括信息技术和计算技术融合起来,形成围绕着技术应用的体系。

我们用获取记录、抽取清洗、集成聚合、分析建模、解释展示这五步来达到目标。但是数字分析并不是拿来的数据就能取得价值。数字应用当中有很多的曲折和循环,我们能找到几点价值就很幸运了,这就是大数据的魅力。

所以我们要以终为始,跨界协同。我们的目标是减少数据的循环。比如,从商业理解到数据理解,可能一个商业问题很难用数据解决,找到差不多的数据来做循环,有问题再重新做循环。我们需要克服很多困难,才能真正发现数据的价值。

这个循环给系统建设带来怎样的问题和挑战呢?一套大数据软件不可能解决所有的问题,因为每次循环中都用到了新的算法、新的工具和新的系统。所以大数据软件系统是动态变化的,用一套软件远远不能满足这样的状况。

既然大数据系统是不确定的,那我们能不能找到确定的办法构造大数据系统呢?这就是我们想的“循环”。在2014年,我们在国家实验室立项,开始研究大数据应用开发的一体化平台,解决变化的问题。在大数据的生命周期里,随着需求的不断演化,系统也要不断的变化。此外,我们还希望大数据系统里有一个工程的部分,使得在时间成本可控的情况下,构建一个可用的大数据系统。

在这样的方法指引下,我们就做了“清华数为”这样一个可自由组装的大数据软件栈。它的优势在于“清华数为框架DWF”,这个框架可以一半做信息化,一半做智能化,使得数据变现的结果回到信息化系统中。

详细介绍一下“清华数为框架DWF”。它是一个大数据系统的协调器,是物联网领域应用的组态软件,也是支持信息化应用的低码量开发。它的定位和使命就是将数据中台和数据后台协调起来,合理分工。

它形成的产品,第一个是“工程机械行业—智能运维服务系统”。这个智能头盔,相当于内置一部手机,可以智能感知问题并形成自动化解决方案,同时可使维修执行过程可视化、结果分析智能化。

第二个就是“工业物联网的时序数据管理系统——Apache IoTDB”,它围绕物联网支持时间序列数据全生命周期来进行处理和分析,从数据收集开始到数据被加工和挖掘结束,完成整个生命周期的使用。并且,它可以灵活适配“云-网-端”计算环境,完成一体化部署。2018年11月,IoTDB的正式进入Apache社区,开源这一年多来,被国内和国外各界接受和使用,同时他们对我们项目的成熟也做出了很大贡献。

第三个是“机器学习生命周期Xlearn”。在软件栈机器学习的六个环节里,有一些是存在短板的,Xlearn可以通过迁移学习环境来弥补这样的短板,实现举一反三。

对于大数据重要的不仅是机器智能,还有人的智能。那人的智能如何与机器智能相互融合呢?可视化是非常重要的手段,我最早是做CAD的,今天大数据的可视化和当初画图的可视化的区别,是对数据级特定的可视化问题,而对一个数据级的特定的可视化,要看有没有找到交互的通道,把数据背后的知识发掘出来。

为了解决这个问题,我们做了一个叫AutoVis的工具,把人与数据、人与人、数据与人融合起来,形成全方位的数据挖掘和利用,让数据更有价值。

最后借用马云的两句话,数字化时代,前两个阶段就是业务的数字化,把人的行为变成信息,把机器的行为变成信息,然后再把数据业务化。信息化和物联网积累的数据要有价值,一定要通过BI和AI转化出去。

国计民生的大数据应用

从应用来看,最早我们在三一重工装备大数据,当时还没有想到特别现代的工业大数据,只是把每一个设备返回的数据用起来,现在已有很多的大数据应用。第二,与河北天远公司为小设备做服务,就是把数据变得有价值,从而使大数据应用起来。我们通过摄像头来辨别半斗和满斗的情况,为什么这个辨别很重要,现代工程中的大型设备都是租赁的,在租赁的过程中,设备运输了多少东西,大家说不清楚,但有了这个AI技术,就可以算清楚,这些都是通过数据解决了问题。

全国天气预报的专业天气预报平台也是我们做的,每个省的天气不同,都有自己的的气象预报台,每个省的气象预报责任由每个省负责。我们也会把气象的数据跟风力发电和太阳能发电结合在一起,把它变成优质的电源。最后,特别感谢神州信息给我们带来这样的一次分享机会,谢谢大家。