想让机器学习与商业结合，最重要的是什么？( 八 )_全文共6008字

获取途径：大部门企业数据都很敏感，尤其是政府、医疗保健和金融领域的相关数据。要共享数据集，签署保密协议是常规流程。

\n \n

数据分散：数据在组织内不同部门间散布是很常见的。要拿到整体数据，需要各部门的同意。

\n \n

专业指导：能获取数据往往还不够。由于获取的数据太多，需要一位领域专家指导团队从庞大的数据库中挑选出合适的数据集。有时专家的缺席也会成为项目瓶颈，因为核心企业运营已使他们应接不暇。

\n \n

隐私：模糊处理和匿名操作已经成为两项独立的研究领域，在处理敏感数据时这二者尤为重要。

\n \n

标记：通常了解实际情况或标记会很有帮助，因为这让团队能够应用很多可监控的学习算法。然而，有时标记数据成本高昂，或由于法律限制团队无法得到标记。在这些情况下，可以应用数据聚类等不可监控的方案。

\n \n

数据生成器：如无法获得数据或标记，可以去模拟它们。了解数据结构的相关信息会对使用数据生成器很有帮助，除此以外，还可以了解数值变数的可能性分布和名义变量的类别分布。如果数据结构比较散乱，可借助汤不热（Tumblr）平台，其上有许多标记图像。此外，推特（Twitter）可提供大量自由文本，卡歌网（Kaggle）则拥有特定领域和行业相关的数据集和解决方案。