想让机器学习与商业结合,最重要的是什么?(17)

\n \n

处理此类问题的一个可行办法是计算特征重要度 , 从Random Forests Decision Trees和XGBoot等算法中可以得到此数据 。 另外 , LIME或SHAP等算法则有助于解释模型和预测 , 即使其源于神经网络或其它“黑盒”模型 。

\n \n

\n

调整超参数

\n \n

机器学习算法有参数和超参数两类参数 。 其不同之处在于:前者直接由算法进行估测——如 , 回归的系数或神经网络的权值——而后者则并非如此 , 须由用户手动设置——如 , 某片森林的树木总数 , 神经网络的正则化方法 , 或支持向量机的内核功能 。

\n \n

为机器学习模型设置正确的超参数值十分重要 。 举例而言 , 一个支持向量机的线性内核不能对无法线性分离的数据进行分类 。 再比如 , 如果最大深度和分裂数量设置得过高 , 一个树型分类器可能出现过度拟合的情况;而最大特征数量设置过低 , 其可能无法充分拟合 。

\n \n

为超参数找到最优数值是一个极为复杂的优化问题 。 以下是几点建议:

推荐阅读