大数据课题研究平台

建设方案

一、 建设背景

      1. 大数据时代的来临

大数据(Bigdata)是对海量数据的描述和称谓,也有观点认为大数据是指基于现有技术、方法和理论所无法处理的数据。大数据除了规模庞大之外,还兼具分布式、异构、不一致等特性。美国社会思想家托夫勒在《第三次浪潮》中提出:“如果说IBM的主机拉开了信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章”。作为云计算领域的重要延伸,大数据正在引领信息革命进入新的时代。

国际数据公司的监测统计表明,2011年全球数据总量已经达到1.8ZBZ=10^21),并将以每两年翻一番的速度增长,数据总量增速显著。到2020年,全球的数据量将达到40ZB,而其中我国所掌握的数据将占20%IBM、甲骨文、微软等已在大数据领域发展多年的企业,大数据相关营业收入已占总收入的30% 以上。同时据我国中央财经大学中国经济管理研究院博士张永力估算,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。我国2012年大数据市场规模大约4.7 亿元,2013年增速达到138%,达到11.2亿元,而2015年,我国大数据市场规模已经达到115.9亿元,大数据已成为企业利润的新增长点。全球最具权威的IT研究与顾问咨询公司Gartner预测,2016年全球大数据相关产业规模将达到2320亿美元。

发展大数据及其相关服务业将成为新兴经济体赶超发达国家的重要机遇。发展中经济体能够利用大数据发挥巨大的潜力,例如,亚洲地区移动手机用户最多,其中中国设备数量最多,个人位置数据在亚洲已经领先。大数据的应用不仅仅是商务,通过用户行为分析实现精准管理、科学决策和人性化服务是大数据的典型应用,大数据在各行各业特别是公共服务领域具有广阔的应用前景,包括消费行业、金融服务、食品安全、医疗卫生、军事、交通环保、电子商务、气象等。由此可见,发展大数据产业机遇可贵,潜力巨大。


2. 大数据行业政策导向

在大数据快速发展的国际背景下,201595日电经李克强总理签批,国务院日前印发《促进大数据发展行动纲要》(下称《纲要》),系统指导我国大数据发展的国家顶层设计和总体部署大数据发展工作。

信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。

《纲要》明确,推动大数据发展和应用,在未来510年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。

《纲要》提出从政府大数据、新兴产业大数据、安全保障体系三个方面着手推进大数据领域十大工程建设,将我国大数据发展推到了另一个制高点。

中华人民共和国国民经济和社会发展第十三个五年规划纲要(简称"十三五"规划(20162020年))中提出:"实施国家大数据战略,推进数据资源开放共享"。作为"'十三五'十四大战略"之一的"国家大数据战略",我国《大数据产业"十三五"发展规划》也正在紧张制定中。"十三五"期间,大数据领域必将迎来建设高峰和投资良机。

二、

大数据科研平台以大数据、云计算技术为依托,将围绕企业管理、人力资源、社会保障、经济与贸易、文化与传播、金融、公共管理、社会科学、环境等重要领域的科技发展需求,开展前沿技术创新、工程化研发、系统集成创新和科技成果转移转化,统筹推进产、学、研、用集群式发展。

以大数据科研平台为成果转化平台,整合已有的科研布局和科技创新成果,与各领域开展科研合作、人才合作和教育合作,打造大数据科技创新新高地。通过交叉学科优势互补,探索一个“学习——科研——应用“紧密结合、增强各学科自主创新能力、促进交叉学科的协同创新的新模式。

三、 大数据平台概要

1. 架构设计

平台的整体架构设计上分为以下几个部分组成:

1) 硬件平台

由机柜,交换机,服务器及配套设施构成一个整体对外提供服务的硬件资源池, 为上面应用提供各种场景所需的计算资源. 硬件平台在规划上考虑一定的冗余性, 考虑后续扩展的平滑性.

2) 大数据综合分析平台

基于HadoopSpark计算框架的高性能大数据分析平台,提供一站式大数据开发环境和工具,包括数据存储、分布式计算、分析挖掘及数据可视化的整套支持。用户可以在大数据综合分析处理平台上采集、存储、分析、挖掘海量数据及其内在价值。

3) 云平台管理

负责完成对集群节点的管理和维护操作, 通过虚拟化技术以及容器技术, 对集群资源进行动态管理, 并对集群资源使用情况进行有效监控.

4) 科研环境管理

能够根据老师科研项目需要, 快速生成科研所需的计算环境, 环境组件可以自己定制选择, 计算资源和集群规模可以自己定义.

5) 课题应用

定义不同的大数据应用场景, 利用大数据平台, 产生课题研究成果. 例如舆情分析, 金融风控, 智慧城市, 智能制造, 量化投资.

2. 平台应用

1) 大数据与企业管理

大数据背景下数据的分析利用是企业决策的关键。首先,大数据的决策需要大市场的数据。基于云计算的大数据环境影响到企业信息收集方式、决策方案选择、决策方案制定和评估等决策实施过程,对企业的管理决策产生影响。大数据决策的特点体现在数据驱动型决策,大数据环境下的管理决策对于企业不仅是一门技术,更是一种全新的决策方式、业务模式,企业必须适应大数据环境对管理决策的新挑战。其次,大数据对决策者和决策组织提出了更高的要求。大数据时代改变了过去依靠经验、管理理论和思想的决策方式。管理决策层根据大数据分析结果发现和解决问题、预测机遇与挑战、规避风险。这就要求决策层具有较高的决策水平。由于大数据背景下需要企业全员的参与,动态变动环境下,决策权力更加分散才有利于企业做出正确的决策。这就要求企业的组织更加趋于扁平化。

2) 大数据与人力资源

人力资源是企业中最宝贵的资源,是企业创造核心竞争力的基础。基于大数据技术,企业将大大提高人力资源管理的效率和质量。有效的加快人力资源工作从过去的经验管理模式向战略管理模式的转变。公司从员工招聘到绩效考核与培训,积累了大量的各类非线性数据,这些数据都是无形的资产,利用大数据技术,将这些数据进行整合分析利用,能够为企业带来巨大贡献。首先,在员工招聘上,只需将单位用人要求与员工各项能力数据相匹配,结合人力资源招聘的经验,便可轻松选出符合要求的员工。其次,在绩效考核上,进行标准化管理,将员工日常的各类数据进行分析,设定等级标准,即可得出客观公正的考核结果。这大大排除了绩效管理的主观性与不全面性。最后,根据大数据的分析结果,针对不同员工区别培训,更有效率的提高了培训水平。

3) 大数据与财务管理

大数据使财务管理的模式和工作理念颠覆性的改变。首先,财务管理更加稳健。公司将各类财务数据在大数据技术下进行发掘,提纯出更多有用的财务信息,及早的发现财务风险,为管理决策者提供重要的决策依据,做出正确的决断。其次,财务数据的处理更加及时高效。财务数据在企业日常运营当中举足轻重,企业的各项交易都依赖于财务数据的分析,企业基于大数据,通过对财务数据的分析和处理,能够改进财务管理工作的运行模式,并且是有效率的,企业资金资本运作成本降低和压缩了,利润相应提高了。企业资源最丰富的积累,最基础的财务数据,通过大数据技术进行对财务数据,整理和分析,实现了企业价值增值。

4) 大数据与金融

大数据金融的应用也是由金融行业的业务驱动而衍生出来的。具体的应用分类也没有统一的标准。以金融行业最具代表性的银行为例,根据业务驱动应用场景大致可分为精准营销、风险控制、改善经营、服务创新和产品创新等五个方面。

5) 大数据与公共管理

l 培养大数据的思维方式,提高决策的科学性

充分利用公共各部门的大数据优势,进行整合,提高真实度,并进行分析整理。“用数据说话、用数据决策、用数据管理、用数据创新”。

l 建立大数据共享平台,确保数据利用最大化

建立大数据共享平台,可以有效的推广简政放权,使百姓办事更为简单、便捷,现在国内也在不断完善大数据共享机制,如社保的全国联网、身份证等证件的异地办理都是大数据共享的一个体现。

l 健全数据安全保障机制,促进社会健康发展

6)       大数据与环境

通过对大数据分析核心算法和模型的研究,可以用于环境污染仿真建模和天气预测与预警,通过对卫星观测数据、移动用户提供的污染源信息、地面污染源监测数据进行计算,就可以识别异常数据,为环境执法提供依据。

3. 平台优势

1) 高度可靠

系统采用云架构,底层数据被分块存储在不同的存储节点上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。HDFS的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的7×24小时不间断服务。

2) 优异性能

系统采用分布式并行计算技术,将海量数据的计算处理转化为各个存储节点上并行读写和计算,这样减少了网络的带宽使用,提高了数据的处理速度。同时随着处理节点数目的增多,整个系统的计算性能将呈线性增长。

3) 海量存储

平台所依赖的数据存储层云数据库容量仅受限于卷管理服务器内存,可支撑的容量接近无限。

4) 通用易用

系统提供专用的API接口,供开发人员调用。

5) 快速高效

平台算法库采用了分布式并行算法能够在较短的时间内完整各种算法,同时随着机器的增加系统性能线性增长。

6) 未来扩展优势

大数据平台是一个可靠、安全、高性能、低成本、简捷易用的服务架构平台。在设计大数据平台架构时特别考虑到了系统的高灵活性和可扩展性,在自由的海量分布式数据存储计算技术基础之上,根据各种应用数据的产生方式和使用特点,系统拥有功能丰富的、简捷易用的、专门面向物联网应用开发的编程接口,目的是为了降低未来物联网应用的数据接入和使用的技术门槛以及运营成本。



四、 大数据平台配置清单

大数据课题研究平台构建总体分为三大部分,一是平台硬件,二是支撑系统,三是产品服务体系。

具体配置需求,请联系我们。我们提供的售后服务如下:


产品服务体系

3.1

系统维护

提供软硬件平台系统的安装和维护。

1


3.2

系统使用培训

提供免费系统使用培训。

1


五、 大数据平台建设详细内容

1. 平台硬件

本模块主要包含服务器, 交换机, 机柜及相关配件.

大数据一体机效果图)

该平台提供一体化的大数据硬件平台计算资源能力,具备资源的冗余能力。

2. 支撑系统

1 数据合分析平台

大数据综合分析平台是全面基于Apache Hadoop 及 Apache Spark 计算框架的高性能大数据分析平台,提供一站式大数据开发环境和工具,包括数据存储、分布式计算、分析挖掘及数据可视化的整套支持。用户可以在大数据综合分析处理平台上采集、存储、分析、挖掘海量数据及其内在价值。

平台包含的Hadoop/Spark生态组件:

   

   平台构成:

i.分布式实时数据库:支持结构化、半结构化和非结构化数据的存储;采用分布式存储,支持海量数据存储,支持高并发的快速查询。

ii.服务器监控套件:服务器监控是利用Ganglia和Nagios对集群机器进行资源监控,包括CPU内存,硬盘,网络资源等进行实时监控,方便用户实时掌握集群机器资源的利用情况。

iii.数据挖掘套件:支持多种数据挖掘工具相结合,支持Mahout,MLlib自带的并行化的高性能机器学习算法库;同时也支持基于Python/R自定义的编程算法;并提供强大的主流数据科学Web图形化开发界面环境Jupyter Notebook套件。

iv. 数据分析套件:使用Sqoop和Flume支持数据迁移和采集;采用多计算框架模型,可满足不同数据的计算要求。及支持Hadoop离线大数据的计算,也支持Stream实时流式处理,还支持Spak内存快速计算;支持多语言的数据分析工作,支持SQL、Java、Python、Scala等。

v.协作管理引擎:基于Zookeeper的协调服务机制,采用Yarn的管理模式,支持同时运行多个计算框架,可同时部署Hadoop、Storm、Spark等计算框架。

大数据课题研究平台工作流:

MapReduce工作流程:

MapReduce是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。

数据采集工作流程:

数据采集是数据分析、挖掘的基础,常用的海量数据采集工具有HadoopChukwaClouderaFlumeFacebookScribe等,这些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求。

数据预处理工作流程:

SQLHBASEHIVE之间进行内容传递时,需要一个数据转移工具,如Sqoop。其工作过程如下:



数据存储工作流程:

HDFS结构:

HBase分布式数据库:

数据分析挖掘工作流程:

2 云平台管理模

云平台管理模块完成对服务器集群节点的管理和维护操作, 通过虚拟化技术以及容器技术, 对集群资源进行动态管理, 并对集群资源使用情况进行有效监控.

通过云平台管理模块, 可以根据具体科研的实际需要, 动态分配所需要的资源, 而课题任务结束后, 可以及时释放掉, 避免长期占用. 通过云平台管理, 也可以对整体计算资源进行有计划, 有规划的管理和分配.

3 科研境管理模

能够根据老师科研项目需要, 快速生成科研所需的计算环境, 环境组件可以自己定制选择, 计算资源和集群规模可以自己定义.

该模块提供一系列预定制, 可以满足不同特定课题场景的的科研运行环境, 例如python运行环境, R运行环境, tensorflow运行环境, python可视化工具环境等.

老师可以根据科研环境的具体需要, 选择对应的环境, 一键式驱动所需, 环境构建后, 即可开展科研工作, 每个环境都可以访问到大数据综合分析平台的计算能力, 可以将任务分布式下发到大数据平台, 课题的结果可以保存在云存储上, 持续改进和跟踪.


以上方案版权归北京软云神州科技有限公司所有

未经北京软云神州科技有限公司允许,禁止转载及使用本内容

如有侵权,违法必究