【工经之声】大数据技术及其行业应用:基于铁路领域的概念框架研究( 六 )
图1 大数据技术架构
1.数据获取
常见的数据获取方法主要包括两类:①系统日志采集方法。许多互联网企业形成了自身的数据采集方法,可以用在系统日志的采集过程中,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具都是使用的分布式结构,可以满足每秒数百MB的采集及传输需要。②网络数据采集方法。网络数据采集就是通过网络爬虫以及网络公开API的方法在网上获得数据,这种方法将非结构的数据在网页中提取,然后存储在本地的数据文件中,并且通过结构化的存储模式存储起来,可以进行图片、音视频等文件的采集操作,附件可以和正文进行关联,不仅包括网络的相关内容,还包括网络流量的采集,可以使用DPI或者是DFI等管理技术进行处理[20]。
2.数据处理
数据处理层包括两个重要架构,Hadoop架构和Spark架构。Hadoop为开源软件框架,对数据采取分布式处理方式,其主要特征体现为高可靠性、高扩展性、高容错性、低成本及高效性。Hadoop能够实现一个名为Map Reduce的简单编程模型[21]。Map Reduce是由Google提出来的一种新的数据处理编程模型,可以处理TB级以及TB级以上的数据工作。Map Reduce主要的优势就是隐藏了编程系统的细节,开发者能够集中全力地解决核心问题,并不是关注计算机执行的细节。它继承了函数式以及矢量语言的优点,该编程语言不仅可以用在非结构化中,而且能够用在结构化的数据上,实现查找、知识挖掘、机器语言智能学习等功能。Spark是现在大数据领域最热门、高效的数据快速分析解决框架。它立足于内存计算,从多迭代批量处理出发,将流计算(Streaming)、图计算(Graph Processing)等不同的模型能够在一个平台中统一起来,通过一致的接口,促进各个框架在内存中进行集成,有利于系统任务得到更好的实现[19,21]。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- 手机游戏|LOL手游技术主播排位遭遇安排,玩家段位各种大倒退,多人“中招”
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- 地下城与勇士|DNF:技术流主播的“末路”?Eiji的直播风格引起争议!
- 诺言|酒馆战棋全靠运气?这3点展现技术的重要性!
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 斗鱼|杨颖斗鱼首秀,透露喜欢金克丝的原因,游戏技术得到若风认可
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!