机器学习:CatBoost简介( 八 )

在此数据集中 , 有两个特征(国家和头发长度) 。 我们可以很容易地发现 , 只要一个人来自印度 , 他/她的头发颜色就是黑色 。 我们可以将这两个特征表示为一个特征 。 在现实世界中 , 有许多分类特征可以表示为单个特征 。

CatBoost通过构建基本树来实现特征组合 , 其中根节点仅包含单个特征 , 对于子节点 , 它随机选择另一个最佳特征并沿着根节点中的特征表示它  。

下面是CatBoost的图表 , 它将两个特征表示为树的第2级的单个特征 。

catboost中的对称树结构

在树的第一层 , 我们有一个单一的特征 。 当树的层数增加时 , 分类特征组合的数量成比例地增加 。

CatBoost中的one-hot编码

默认情况下 , 当且仅当分类特征具有两个不同的类时 , CatBoost内部用one-hot编码表示所有分类特征 。