想让机器学习与商业结合,最重要的是什么?( 八 )

获取途径:大部门企业数据都很敏感 , 尤其是政府、医疗保健和金融领域的相关数据 。 要共享数据集 , 签署保密协议是常规流程 。

\n \n

数据分散:数据在组织内不同部门间散布是很常见的 。 要拿到整体数据 , 需要各部门的同意 。

\n \n

专业指导:能获取数据往往还不够 。 由于获取的数据太多 , 需要一位领域专家指导团队从庞大的数据库中挑选出合适的数据集 。 有时专家的缺席也会成为项目瓶颈 , 因为核心企业运营已使他们应接不暇 。

\n \n

隐私:模糊处理和匿名操作已经成为两项独立的研究领域 , 在处理敏感数据时这二者尤为重要 。

\n \n

标记:通常了解实际情况或标记会很有帮助 , 因为这让团队能够应用很多可监控的学习算法 。 然而 , 有时标记数据成本高昂 , 或由于法律限制团队无法得到标记 。 在这些情况下 , 可以应用数据聚类等不可监控的方案 。

\n \n

数据生成器:如无法获得数据或标记 , 可以去模拟它们 。 了解数据结构的相关信息会对使用数据生成器很有帮助 , 除此以外 , 还可以了解数值变数的可能性分布和名义变量的类别分布 。 如果数据结构比较散乱 , 可借助汤不热(Tumblr)平台 , 其上有许多标记图像 。 此外 , 推特(Twitter)可提供大量自由文本 , 卡歌网(Kaggle)则拥有特定领域和行业相关的数据集和解决方案 。

推荐阅读