【工经之声】大数据技术及其行业应用:基于铁路领域的概念框架研究( 六 )

【工经之声】大数据技术及其行业应用:基于铁路领域的概念框架研究

图1 大数据技术架构

1.数据获取

常见的数据获取方法主要包括两类:①系统日志采集方法。许多互联网企业形成了自身的数据采集方法,可以用在系统日志的采集过程中,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具都是使用的分布式结构,可以满足每秒数百MB的采集及传输需要。②网络数据采集方法。网络数据采集就是通过网络爬虫以及网络公开API的方法在网上获得数据,这种方法将非结构的数据在网页中提取,然后存储在本地的数据文件中,并且通过结构化的存储模式存储起来,可以进行图片、音视频等文件的采集操作,附件可以和正文进行关联,不仅包括网络的相关内容,还包括网络流量的采集,可以使用DPI或者是DFI等管理技术进行处理[20]。

2.数据处理

数据处理层包括两个重要架构,Hadoop架构和Spark架构。Hadoop为开源软件框架,对数据采取分布式处理方式,其主要特征体现为高可靠性、高扩展性、高容错性、低成本及高效性。Hadoop能够实现一个名为Map Reduce的简单编程模型[21]。Map Reduce是由Google提出来的一种新的数据处理编程模型,可以处理TB级以及TB级以上的数据工作。Map Reduce主要的优势就是隐藏了编程系统的细节,开发者能够集中全力地解决核心问题,并不是关注计算机执行的细节。它继承了函数式以及矢量语言的优点,该编程语言不仅可以用在非结构化中,而且能够用在结构化的数据上,实现查找、知识挖掘、机器语言智能学习等功能。Spark是现在大数据领域最热门、高效的数据快速分析解决框架。它立足于内存计算,从多迭代批量处理出发,将流计算(Streaming)、图计算(Graph Processing)等不同的模型能够在一个平台中统一起来,通过一致的接口,促进各个框架在内存中进行集成,有利于系统任务得到更好的实现[19,21]。

推荐阅读