大数据 浅谈大数据技术在医疗领域的应用


大数据 浅谈大数据技术在医疗领域的应用

近年来 , 随着数字经济发展的不断深入和医疗领域信息化水平提高 , 社会对医疗数据的收集、应用和管理能力均在不断加强 , 医疗数据体量飞速增长 。
面对数据量大 , 数据种类多 , 数据来源复杂的状况 , 正是大数据技术的用武之地:通过对电子病历数据的针对性抓取、分析、预测 , 医疗大数据为临床提供了更为直接、更为准确的诊断和治疗建议 , 也为科研提供了丰富的数据支撑 。 本文将简要介绍大数据的概念、特性 , 及其在医疗领域的应用情况 。
大数据及医疗大数据的基本概念和特性
大数据本身是一个二元概念 , 既表示海量数据的集合 , 也表示对海量数据集合进行处理的一种新兴技术 。 当其指代数据集合时 , 指的是难以被传统数据管理系统有效且经济地存储、管理、处理的复杂数据集 , 其一般计量单位以PB起 , 集合内多同时存在结构化、半结构化和未结构化的数据;而当其指代技术方法的时候 , 则是指区别于传统统计方式的 , 可有效处理海量数据集合的技术 , 具体如关联规则学习、分类、聚类分析、数据融合、机器学习、自然语言处理、回归、信号处理、仿真、可视化等 。
与传统数据相比 , 大数据的特性可用5个V来概括 , 即规模庞大(Volume)、种类繁多(Variety)、时效性强(Velocity)、准确性高(Veracity) , 和价值丰富(Value) 。 如此庞大复杂的数据在给数据的采集、运输、加密、存储、分析和可视化等各环节都带来了较大挑战的同时 , 也为金融、零售、生命科学、环境研究等复杂学科带来了新的价值和机遇 。
医疗大数据是大数据在医疗领域的分支 , 是指在人们在疾病防治、健康管理等过程中产生的与健康医疗相关的数据 。 由于医疗行业的特殊性 , 相较于大数据 , 医疗大数据还具有一些属于自己的特点:
多态性:即医师对患者病情的描述不可避免地存在主观性 , 从而令数据难以做到完全的标准化和唯一性 。
时效性:即医疗数据只在一段时间内有效 , 超出这段时间范围后其效用降低 , 不适宜再作为医疗决策的决定性依据 。
不完整性:即医师对患者健康状态的表述总是存在偏差和缺失 , 几乎不可能完成同患者健康状况百分百吻合的模型 。
冗余性:即患者积累的医疗数据中不可避免地存在着大量重复或无关的信息数据 。
隐私性:即患者的医疗健康数据是极为个人的隐私数据 , 无端泄露会造成严重的后果 。
医疗大数据的基本类型
根据全国信息安全标准化技术委员会于2019年4月颁布的《信息安全技术-健康医疗数据安全指南(征求意见稿)》规定 , 医疗大数据具体可分为六类:
个人属性数据:具体包含姓名、年龄、性别、民族等人口统计信息;身份证、工作证、社保卡、住院号、检查检验单号和可识别的个人影像图像等个人身份信息;电话号码、邮箱等个人通讯信息;基因、指纹、声纹、虹膜等个人生物识别信息和个人健康监测传感设备ID等共计五小类 。
健康状况数据:主要指患者主诉、现病史、既往病史、体格检查(体征)、家族史、症状、生活方式等相关信息 。
医疗应用数据:主要包含门(急)诊病历、处方、检查检验报告、用药信息、病程记录等诊疗判断与行为 , 以及相关检查检验信息等 。
医疗支付数据:一是指交易金额、交易项目、医保支付信息等医疗交易信息;二是指保险账号、保险金额、保险状态等保险信息 。
卫生资源数据:包含医院基本数据、医院运营数据等 。
公共卫生数据:具体包含环境卫生数据、传染病疫情数据、疾病监测数据、疾病预防数据、出生死亡数据等 。
医疗大数据常见的应用场景
1.政府主管部门监督管理方面
随着大数据技术的不断成熟 , 卫健部门可基于医疗大数据对医疗健康问题进行评估、预测 , 并将之作为计划编制、政策出台、法规颁布的参考依据之一;疾控部门可借助医疗大数据库 , 实现对国内疾病趋势和公共卫生状况的全面分析 , 以实现全面的疫情监测和全国医疗资源的优化配置 , 为疾病防控提供参考依据;与此同时 , 卫健部门和医保部门还可以利用大数据分析对各个医疗机构的医疗服务质量和医保使用情况进行监控 。
例如山东省建设的省医保大健康平台 , 以医保知识库为基础 , 结合人工智能、大数据分析工具 , 通过事前事中监控、事后审核、监控分析、大数据风控等系统建设 , 实现了对医师开具处方和检查项目等各个方面的全流程的监管 。

推荐阅读