机器学习:CatBoost简介( 九 )

处理数字特征

CatBoost以与其他树算法相同的方式处理数字特征 。 我们根据信息增益选择最佳拆分 。

限制

  • CatBoost 不支持稀疏矩阵 。

  • 当数据集具有许多数字特征时 , CatBoost比Light GBM需要更多时间进行训练 。

各种情况下的CatBoost:

对CatBoost来说 , 超参数调优并不是真正重要的 。 最重要的是根据我们正在解决的问题设置正确的参数 。

1.数据随时间变化时

在现实世界中 , 有很多情况下数据会随着时间而变化 。 通过设置参数has_time = True CatBoost可以在这些情况下很好地执行 。

2.低延迟要求

CatBoost是唯一具有非常少的预测时间的增强算法 。 由于其对称的树形结构 。 在预测时 , 它比XGBoost 快8倍 。

3. 加权数据点

在某些情况下 , 我们需要对某些数据点给予更多的重视 。 特别是当您进行时间训练-测试分割时 , 您需要模型主要针对早期数据点进行训练 。 当你赋予一个数据点更多权重时 , 它在随机排列中被选中的几率就会更高 。

推荐阅读