想远离欠拟合OR过拟合?正则化最有效!( 四 )

欠拟合和过拟合的例子如下所示 。 欠拟合算法用黑线显示 , 过拟合算法用蓝线显示 。

要解决算法欠拟合的问题 , 你通常可以添加更多其他功能 , 或者使你的功能更高 , 以更好地匹配数据 。

另一方面 , 为了防止过度拟合 , 可以减少功能的数量或使用正则化 。 删除功能可能很困难 , 因为要清楚地知道删除哪些功能并不简单 。 另一方面 , 调整算法可以轻松地将正则化应用于问题中 。

正则化

正则化的核心是减小算法中某些θ参数的大小 。 将其视为阻尼器 , 可以抑制算法中不太有用的功能 , 从而减少过度拟合数据的可能性 。 当数据集中有许多稍微有用的功能时 , 正则化最有效 。 稍微有用的意思是它们与输出变量的相关性较低 。

为了理解正则化如何运作 , 我们将正则化应用于下面的线性回归中 。 如果你对细节不感兴趣 , 可以跳转到案例部分 , 了解它对实际算法的影响 。

推荐阅读