机器学习:CatBoost简介( 十 )

我们可以通过设置参数给予某些数据点更多的权重

例如 , 您可以给出所有数据点的线性加权

sample_weight=[ x for x in range(train.shape[0
)

4.使用小数据集

在某些情况下 , 如果数据点数较少 , 则需要的Log-loss最少 。 在这些情况下 , 您可以将参数fold_len_multiplier设置为接近 1 (必须> 1)和approx_on_full_history = True   。 使用这些参数 , CatBoost使用不同的模型计算每个数据点的残差 。

5.使用大型数据集

对于大型数据集 , 可以通过设置参数task_type = GPU在GPU上训练CatBoost 。 它还支持多服务器分布式gpu 。 CatBoost还支持旧的gpu , 您可以在谷歌Colabs中对其进行训练 。

6.监控误差/损失函数

每次迭代都要监控模型 , 这是一种非常好的做法 。 您可以通过设置参数custom_metric = ['AUC' , 'Logloss'
来监控您选择的任何指标以及优化损失函数  。

推荐阅读