如何掌握数据科学界的“黑色黄金”?(12)
除了数据科学的初学者之外 , 即使是经验丰富的软件测试人员也可能发现一个简单的工具是很有用的 , 只需几行代码 , 他们就可以生成一个具有随机(假的)但又有意义的任意大条目的数据集 。
输入PydGEN 。
它是一个轻量级的纯python库 , 用于生成随机的有用条目(例如 , 姓名、地址、信用卡号、日期、时间、公司名称、职称、车牌号等) , 并将它们保存在Pandas数据框架对象中 , 或者作为数据库文件中的SQLit表或MS Excel文件中 。
这里将仅展示几个带有屏幕截图的简单数据生成示例:
生成几个国际电话号码:
用名称、地址、SSN等随机条目生成完整的数据帧:
总结和结论
本文讨论了访问高质量数据集对于进入令人激动的数据科学和机器学习世界的重要性 。 通常缺乏足够灵活和丰富度的数据集会限制一个人深入机器学习或统计建模技术的内部工作的能力 , 并留下肤浅的理解 。
推荐阅读
- 小鱼人|如何在新赛季稳定上分?善于抓失误的小鱼人,值得认真练上一波
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 阴阳师|阴阳师SR川猿强度如何 是否值得抽卡 改变斗技环境 大佬的新玩具
- 手机游戏|梦幻西游手游:活力如何换金币 一切都已给出 就看你的选择
- 华佗|三国杀:两位\奶爸\,朱治与华佗比,强度如何呢?
- 亲朋上分|《亲朋上分》266391亲朋下分亲朋上下分永劫无间崔三娘技能介绍 崔三娘如何获得更多技能
- s6|金铲铲之战:S6双城传说如何才能快速上手?基础知识很关键
- |冰雪传奇:平民玩家四转后如何打金
- 穿越火线|CF:传说武器再度上新,那王者、炫金该如何发展?
- 打野|打野已经被削到几乎不能再削了,到底如何平衡打野位置?