第66集 python机器学习:信息泄露示例说明

text":"

信息泄露往往会导致我们对于数据的预测产生一个过于乐观的结果 , 从而导致我们对数据的误判 。

下面我们距离说明信息泄露的情况:我们假象的回归任务 , 包含从高斯分布中独立采样的100个样本与10000特征 , 下面我们以此为例:

from sklearn.linear_model import Ridge

rnd = np.random.RandomState(seed=0)

x = rnd.normal(size=(100 20000))

y = rnd.normal(size=(100))

#我们创建数据集的方式是采用随机得到的100-20000的数据 , 此时x和y之间是没有任何关系的(都是随机

#获取的)

#所以应该不可能从这个数据集中学到任何内容 , 那么 ,

#现在我们利用SelectPercentile特种中选择从20000个特征

#中选择信息量最大的特征

推荐阅读