超级女王XGBoost到底“绝”在哪里?( 十 )

算法增强:

1. 正则化:通过LASSO(L1)和Ridge(L2)正则化来对更为复杂的模型进行惩罚 , 防止过度拟合 。

2. 稀疏性感知:XGBoost具有稀疏性的离散特征 , 根据训练缺失自动“学习”最佳缺失值 , 并且可以更有效率地处理数据中不同类型的稀疏模式 。

3. 加权分位数草图:XGBoost采用分布式加权分位数草图算法 , 有效地找到加权数据集中的最佳分裂点 。

4. 交叉验证:在每次迭代时 , 该算法都有内置的交叉验证方法 , 无需显式地对搜索进行编程或明确在指定单次运行中所需的增强迭代数量 。

有何证据?

我们使用Scikit-learn的“Make_Classification”数据包创建了一个包含20类特征(2类信息型和2类冗余型)的100万个数据点的随机样本 。 我们测试了几种算法 , 如逻辑回归、随机森林、标准Gradient Boosting和XGBoost 。

使用SKLearn的Make_Classification数据集比较XGBoos与其他机器学习算法

推荐阅读