聊一聊统计学和数据挖掘的区别(二)( 二 )

在数学背景和追求精确加强了这样一个趋势 , 那就是在采用一个方法之前先要证明 , 而不是象计算机科学和机器学习那样注重经验 。 这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法 , 但它却不能被证明或不被证明 。 正是统计文献显示了统计的数学精确性 。 同时还显示了其对推理的侧重 。 尽管统计学的一些分支也侧重于描述 , 但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体 。 当然这也常常是数据挖掘所关注的 。

而数据挖掘的一个特定属性就是要处理的是一个大数据集 。 这就意味着 , 由于可行性的原因 , 我们常常得到的只是一个样本 , 但是需要描述样本取自的那个大数据集 。 然而 , 数据挖掘问题常常可以得到数据总体 , 在这种情形下 , 推断就没有价值了 , 因为观测到的值也就是估计参数 。

由此可见 , 数据挖掘和统计学的区别之一就在于这些特定属性 , 这些都是我们需要了解的 , 不管我们在进行数据挖掘工作还是统计学知识的学习还是要侧重这两点的内容的 , 这样才能够保证在后续的工作中顺利进行 。

推荐阅读