【工经之声】大数据技术及其行业应用:基于铁路领域的概念框架研究(15)
1
铁路大数据获取
严格意义上讲,数据采集包括“采”和“集”两个内容,“采”是指对物体的数字化表达、形成数据的过程,主要是各类硬件设备、信息系统,“集”是指将数据汇聚的过程,主要是传输网络,包括铁路内网、北斗导航、GPRS、WLAN等技术。当前,电子技术、信息技术快速发展,面向铁路领域的数据感知设备越来越多,传感器、移动终端等快速推广和应用,结构化、弱结构化、半结构化及非结构化的铁路数据源源不断地产生。现有研究展示了数据的多种方式,包括基于硬件设备的机车、车辆、线路等数据采集、基于信息系统的运输生产数据采集,数据采集的频率越来越高、精度越来越高、质量越来越高,图片、视频、音频等非格式化的数据也越来越多。例如,机车CMD系统不仅要通过传感器、摄像仪等采集机车运行数据,还要通过数据交换的方式采集6A系统中的机车安全数据,集成了所有机车数据。
2
铁路大数据预处理
铁路很多数据是实时采集,硬件设备的损坏、人工处理的纰漏、传感器等时间不一致等都会使采集的数据中存在大量杂乱、重复、不完整的数据,严重影响后期的数据处理分析,进而导致决策偏差、失误等。数据预处理非常重要,比如在一个完整的数据挖掘过程中,数据预处理所花费时间比例能约达60%。数据预处理主要包括对已采集数据的清理、抽取、集成、变换、数据质量评估等,铁路数据预处理过程需要注意以下问题:①数据清理重点针对数据源中的噪声数据、无关数据等;②通过数据抽取技术进行数据的归一化表达和一致性处理;③通过集成实现模式层的数据一致;④数据变换主要是通过规格化、旋转、投影等操作对数据进行简化,找到数据特征表示;⑤对数据质量进行有效评估,一致性、正确性、完整性和最小性是数据质量评价的基本指标。例如,对机车能耗数据的处理,首先要对重复、无效的数据进行筛选、清洗,对来源于不同数据库的信息进行集成,以时间为标准进行统一,对不同区段的能耗数据按照公里标进行判别、提取,最后得到完整的机车能耗数据库。
推荐阅读
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 碧蓝航线|碧蓝航线SR重巡福煦数据详解 期待越高失望越大 强度平平无奇
- 手机游戏|LOL手游技术主播排位遭遇安排,玩家段位各种大倒退,多人“中招”
- kramer|国服极地大乱斗数据上线,来看看胜率榜符合你的预期吗?
- 米莱狄|峡谷数据榜:分均输出TOP5,干将莫邪只排第四,米莱狄至今被误解
- 地下城与勇士|DNF:技术流主播的“末路”?Eiji的直播风格引起争议!
- 诺言|酒馆战棋全靠运气?这3点展现技术的重要性!
- |S11淘汰赛数据盘点:场均时长为33分 55个不同英雄登场
- 斗鱼|杨颖斗鱼首秀,透露喜欢金克丝的原因,游戏技术得到若风认可
- 中单|2021年英雄联盟世界赛终于落下帷幕!!大数据统计二!!