【工经之声】大数据技术及其行业应用：基于铁路领域的概念框架研究(15)_：【工经之声】大数据技术及其行业应用

铁路大数据获取

严格意义上讲，数据采集包括“采”和“集”两个内容，“采”是指对物体的数字化表达、形成数据的过程，主要是各类硬件设备、信息系统，“集”是指将数据汇聚的过程，主要是传输网络，包括铁路内网、北斗导航、GPRS、WLAN等技术。当前，电子技术、信息技术快速发展，面向铁路领域的数据感知设备越来越多，传感器、移动终端等快速推广和应用，结构化、弱结构化、半结构化及非结构化的铁路数据源源不断地产生。现有研究展示了数据的多种方式，包括基于硬件设备的机车、车辆、线路等数据采集、基于信息系统的运输生产数据采集，数据采集的频率越来越高、精度越来越高、质量越来越高，图片、视频、音频等非格式化的数据也越来越多。例如，机车CMD系统不仅要通过传感器、摄像仪等采集机车运行数据，还要通过数据交换的方式采集6A系统中的机车安全数据，集成了所有机车数据。

铁路大数据预处理

铁路很多数据是实时采集，硬件设备的损坏、人工处理的纰漏、传感器等时间不一致等都会使采集的数据中存在大量杂乱、重复、不完整的数据，严重影响后期的数据处理分析，进而导致决策偏差、失误等。数据预处理非常重要，比如在一个完整的数据挖掘过程中，数据预处理所花费时间比例能约达60%。数据预处理主要包括对已采集数据的清理、抽取、集成、变换、数据质量评估等，铁路数据预处理过程需要注意以下问题：①数据清理重点针对数据源中的噪声数据、无关数据等；②通过数据抽取技术进行数据的归一化表达和一致性处理；③通过集成实现模式层的数据一致；④数据变换主要是通过规格化、旋转、投影等操作对数据进行简化，找到数据特征表示；⑤对数据质量进行有效评估，一致性、正确性、完整性和最小性是数据质量评价的基本指标。例如，对机车能耗数据的处理，首先要对重复、无效的数据进行筛选、清洗，对来源于不同数据库的信息进行集成，以时间为标准进行统一，对不同区段的能耗数据按照公里标进行判别、提取，最后得到完整的机车能耗数据库。