【工经之声】大数据技术及其行业应用：基于铁路领域的概念框架研究( 六 )_：【工经之声】大数据技术及其行业应用

图1 大数据技术架构

1.数据获取

常见的数据获取方法主要包括两类：①系统日志采集方法。许多互联网企业形成了自身的数据采集方法，可以用在系统日志的采集过程中，如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等，这些工具都是使用的分布式结构，可以满足每秒数百MB的采集及传输需要。②网络数据采集方法。网络数据采集就是通过网络爬虫以及网络公开API的方法在网上获得数据，这种方法将非结构的数据在网页中提取，然后存储在本地的数据文件中，并且通过结构化的存储模式存储起来，可以进行图片、音视频等文件的采集操作，附件可以和正文进行关联，不仅包括网络的相关内容，还包括网络流量的采集，可以使用DPI或者是DFI等管理技术进行处理[20]。

2.数据处理

数据处理层包括两个重要架构，Hadoop架构和Spark架构。Hadoop为开源软件框架，对数据采取分布式处理方式，其主要特征体现为高可靠性、高扩展性、高容错性、低成本及高效性。Hadoop能够实现一个名为Map Reduce的简单编程模型[21]。Map Reduce是由Google提出来的一种新的数据处理编程模型，可以处理TB级以及TB级以上的数据工作。Map Reduce主要的优势就是隐藏了编程系统的细节，开发者能够集中全力地解决核心问题，并不是关注计算机执行的细节。它继承了函数式以及矢量语言的优点，该编程语言不仅可以用在非结构化中，而且能够用在结构化的数据上，实现查找、知识挖掘、机器语言智能学习等功能。Spark是现在大数据领域最热门、高效的数据快速分析解决框架。它立足于内存计算，从多迭代批量处理出发，将流计算（Streaming）、图计算（Graph Processing）等不同的模型能够在一个平台中统一起来，通过一致的接口，促进各个框架在内存中进行集成，有利于系统任务得到更好的实现[19，21]。