如何掌握数据科学界的“黑色黄金”?(12)

除了数据科学的初学者之外 , 即使是经验丰富的软件测试人员也可能发现一个简单的工具是很有用的 , 只需几行代码 , 他们就可以生成一个具有随机(假的)但又有意义的任意大条目的数据集 。

输入PydGEN 。

它是一个轻量级的纯python库 , 用于生成随机的有用条目(例如 , 姓名、地址、信用卡号、日期、时间、公司名称、职称、车牌号等) , 并将它们保存在Pandas数据框架对象中 , 或者作为数据库文件中的SQLit表或MS Excel文件中 。

这里将仅展示几个带有屏幕截图的简单数据生成示例:

生成几个国际电话号码:

用名称、地址、SSN等随机条目生成完整的数据帧:

总结和结论

本文讨论了访问高质量数据集对于进入令人激动的数据科学和机器学习世界的重要性 。 通常缺乏足够灵活和丰富度的数据集会限制一个人深入机器学习或统计建模技术的内部工作的能力 , 并留下肤浅的理解 。

推荐阅读