【工经之声】大数据技术及其行业应用:基于铁路领域的概念框架研究(15)

1

铁路大数据获取

严格意义上讲,数据采集包括“采”和“集”两个内容,“采”是指对物体的数字化表达、形成数据的过程,主要是各类硬件设备、信息系统,“集”是指将数据汇聚的过程,主要是传输网络,包括铁路内网、北斗导航、GPRS、WLAN等技术。当前,电子技术、信息技术快速发展,面向铁路领域的数据感知设备越来越多,传感器、移动终端等快速推广和应用,结构化、弱结构化、半结构化及非结构化的铁路数据源源不断地产生。现有研究展示了数据的多种方式,包括基于硬件设备的机车、车辆、线路等数据采集、基于信息系统的运输生产数据采集,数据采集的频率越来越高、精度越来越高、质量越来越高,图片、视频、音频等非格式化的数据也越来越多。例如,机车CMD系统不仅要通过传感器、摄像仪等采集机车运行数据,还要通过数据交换的方式采集6A系统中的机车安全数据,集成了所有机车数据。

2

铁路大数据预处理

铁路很多数据是实时采集,硬件设备的损坏、人工处理的纰漏、传感器等时间不一致等都会使采集的数据中存在大量杂乱、重复、不完整的数据,严重影响后期的数据处理分析,进而导致决策偏差、失误等。数据预处理非常重要,比如在一个完整的数据挖掘过程中,数据预处理所花费时间比例能约达60%。数据预处理主要包括对已采集数据的清理、抽取、集成、变换、数据质量评估等,铁路数据预处理过程需要注意以下问题:①数据清理重点针对数据源中的噪声数据、无关数据等;②通过数据抽取技术进行数据的归一化表达和一致性处理;③通过集成实现模式层的数据一致;④数据变换主要是通过规格化、旋转、投影等操作对数据进行简化,找到数据特征表示;⑤对数据质量进行有效评估,一致性、正确性、完整性和最小性是数据质量评价的基本指标。例如,对机车能耗数据的处理,首先要对重复、无效的数据进行筛选、清洗,对来源于不同数据库的信息进行集成,以时间为标准进行统一,对不同区段的能耗数据按照公里标进行判别、提取,最后得到完整的机车能耗数据库。

推荐阅读