数据质量决定AI的未来 云测数据掀起的行业飓风( 二 )

有数据人工智能才能跑起来但数据的质量高低对AI是否好用起到决定性作用 。 当前AI发展对于数据的需求非常大但对于AI来说数据量并非等于数据质量只有高质量的数据才能对算法起到决定性作用进而产生生产力而质量一般的海量数据对AI不但无利反而有害 。 大数据行业之前有对大数据去噪的作业流程而到了AI时代随着AI公司对高质量数据的需求不断加大数据标注开始形成一个行业在AI发展中担当越来越重要的作用 。 云测数据正是这个行业中的头部企业 。

像百度、阿里巴巴这样拥有海量数据的企业更需要将数据进行清洗、标注把海量数据加工成有价值的数据 。 更不用说人工智能产业落地前夕AI需要更多还原特定场景的数据 。 这对于轻资产的AI公司来说用人力去做成本太过高昂因此AI公司多将此类工作外包 。 由此而产生了一个以数据标注为核心的AI数据服务市场 。 根据艾瑞报告2018年AI基础数据服务市场的规模约为25.86亿元并预测到2025年这个市场的规模约为113亿元 。 这是个高速增长的市场有多家企业涉足其中为AI行业的发展提供最不可或缺的服务 。

数据标注行业从性质上看偏劳动密集型因为主要工作过程都牵涉到人力 。 举一个例子谷歌大脑当年曾成功从视频中认出了一只猫为此所付出的算力代价则是16000台电脑学习了1000万张图片 。 在当前的算力情况没有突破性进展的情况下这个案例是无法落地应用的因为仅仅认出一只猫就要机器学习这么久要是认一间屋子里床上的一只猫呢?从应用角度来说算力成本太高难以推行 。 将这个案例投入应用的唯一办法就是采集和标注大量猫图片训练算法以提升效率 。 这只是数据标注行业的某个单一工作场景还有更多更复杂的数据需求 。

推荐阅读