如何掌握数据科学界的“黑色黄金”?( 四 )

数据就是新的石油 。

现在进入算法世界的门槛相当低 , 开源已经从被Steve Ballmer这样的人奉为恶魔 , 发展到成为微软不可分割的一部分 。 许多开源项目正在推动数据科学、数字分析和机器学习的发展 。

到2018年 , 算法、编程框架和机器学习包(甚至如何学习这些技术的教程和课程)不是稀缺资源 , 高质量的数据才是 。

这对于数据科学和机器学习的初学者来说常常会产生复杂的问题 。 这篇文章只针对缺乏用于学习目的的数据这个问题 , 而不涉及用于运行商业操作的数据 。

自驱动数据科学的关键

数据科学既热门又畅销 。 而且 , 人们正在转向数据科学——他们正在改变职业 , 为训练营和线上MOOC支付费用 , 在LinkedIn建立社交网络 。 但是 , 许多新入学者一旦通过了正规的课程 , 进入不确定的领域 , 就很难保持学习新“工艺”的势头 。

要解决什么问题?关注哪个MOOC?参加什么Kaggle比赛?要学习什么新的机器学习包?要在Github上展示什么样的项目?要掌握多少数学技能?

推荐阅读