如何掌握数据科学界的“黑色黄金”?( 八 )
· 它可以是数字、二进制或分类(序数或非序数) 。
· 数据集的特征数量和长度应该是任意的 。
· 它最好是随机的 , 并且用户应该能够选择各种各样的统计分布来依附这些数据 , 例如精确地控制和调整基础随机过程 。
· 如果用于分类算法 , 那么类分离的程度应该可以调节学习问题的容易或困难程度 。
· 随机噪声可以以可控的方式插入 。
· 对于回归问题 , 可以使用复杂的、非线性的生成过程来获取数据 。
尽管在本文中 , 为了实现更好的ML算法 , 我们将讨论局限于合成数据 。 但是它在帮助处理真实数据集的安全性和隐私问题时(这些问题不能基于学习目的被使用或获取)可能具有深远的意义 。
用scikit-learning方法生成数据
Scikit-learning是一个很棒的Python库 , 用于经典的机器学习任务(例如 , 如果你不特别关心深度学习) 。 然而 , 虽然它的机器学习算法被广泛使用 , 但是它提供的优秀的合成数据生成功能却鲜为人知 。
推荐阅读
- 小鱼人|如何在新赛季稳定上分?善于抓失误的小鱼人,值得认真练上一波
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 阴阳师|阴阳师SR川猿强度如何 是否值得抽卡 改变斗技环境 大佬的新玩具
- 手机游戏|梦幻西游手游:活力如何换金币 一切都已给出 就看你的选择
- 华佗|三国杀:两位\奶爸\,朱治与华佗比,强度如何呢?
- 亲朋上分|《亲朋上分》266391亲朋下分亲朋上下分永劫无间崔三娘技能介绍 崔三娘如何获得更多技能
- s6|金铲铲之战:S6双城传说如何才能快速上手?基础知识很关键
- |冰雪传奇:平民玩家四转后如何打金
- 穿越火线|CF:传说武器再度上新,那王者、炫金该如何发展?
- 打野|打野已经被削到几乎不能再削了,到底如何平衡打野位置?