如何掌握数据科学界的“黑色黄金”?( 五 )

如何建立一个好的数据科学选集?根据一篇非常流行的文章 , 答案是通过做公共工作 , 例如贡献开源 , 用数据建模、争论、可视化或机器学习算法展示创新思维和原创贡献 。 但不幸的是 , 人们往往没有热心的指导或导师 , 往往必须自我推进 。

能够成功穿越这个灰色地带的人 , 据说已经在自驱动数据科学领域找到了他/她的法宝 , 走得很远 。 不过 , 为了使这次旅行富有成效 , 他/她必须访问高质量的数据集以进行实践和学习 。

一个丰富的学习经历需要什么样的数据?

假设你正在修正像支持向量机或深层神经网络这样的机器学习算法 。 你应该在什么类型的数据集上实践它们?如果你从头开始学习 , 建议从简单的小规模数据集开始 , 你可以在二维中绘制这些数据集 , 以便直观地理解模式 , 并亲眼看到机器学习算法以直观的方式工作 。

这是一个好的开始 。 但这还不是全部 。

当然 , 你可以提升一个级别 , 并给自己找一个可以在上面实践算法的现实中的大型数据集 。

推荐阅读