返回首页
当前位置: 主页 > 互联网技术 > 数据挖掘 >

数据挖掘与统计学

时间:2014-10-04 00:26来源:电脑教程学习网 www.etwiki.cn 编辑:admin

IT界这两年都在热炒云计算,似乎数据挖掘没前几年那么火了,不过数据挖掘的研究远远没有停止,甚至可以说刚刚开始。今天先谈谈数据挖掘与它最紧密的统计学之间的关系。

一个只有统计学专业背景的人在刚开始接触数据挖掘时,都会有一种熟悉的陌生人的感觉。熟悉是因为它所要达到的目的本身就是统计学要做的,而且它的大部分方法也不过是高级多元统计的衍生而已。但它的陌生在于它的整个基础理论体系是由计算机学家、工程师等其他领域的专家塑造的,这就造成很多表述都没有统一的标准,例如统计学中的变量在数据挖掘中又被称为属性、字段、特征等,观测值被称为记录、对象、样本、实体等。这些五花八门的叫法基本属于工科领域,统计学者要想真正学好它,还必须得恶补计算机基础知识,另外目前市面上绝大多数的数据挖掘书籍都是由工科背景的专家写成的,面向的也基本是工科背景的学生,这样就会使得这些书籍往往对工科背景学生不懂的统计知识进行大篇幅介绍,而对于统计学者不熟的计算机领域知识,他们基本一笔带过,这也造成了我们在初学这门课时会有很大困难。

过了适应期以后,你还会发现二者之间在内涵上的不同,这个不同之处甚至可以说是与整个经典统计学理论基础的不同,吴喜之在《数据挖掘前沿》里有过详细阐述。这本书引用Breiman的划分把统计学里的建模方式称为数据建模文化,把数据挖掘里的建模方式称为算法建模文化。之所以有这样的区别,我觉得跟它们各自的诞生过程有很大的关系,统计学诞生于试验科学,在fisher那个年代,他们所能得到的数据是很少的,即使是这些很少的数据量都是要很大成本的,这种情况下,传统统计学只能基于假设,用样本来估计总体,所以我们在应用这些模型时就要非常小心,在评估方法上我们同时衍生出了拟合优度检验、残差检验这些很复杂的检验模型方法。这些方法在那个年代的确是相当先进的,它也使得统计学从数学脱离,成为单独的一门学科。而到了当代,数据库的发展、数据仓库的建立让我们的数据越来越多,数据量不断接近总体甚至达到总体已经变成可能,现在的问题不是数据不够,而是数据太多,这种情况下算法模型自然会比数据模型更有市。笠敌枰氖且恢指咝У、更直接的方法来挖掘数据信息,从某种意义上说淡化假设直接从数据入手在实际应用中会更能让人接受。

需要指出的是,算法模型的提出并非是对传统统计学的颠覆,相反它给统计学带来了新的思路,统计学家应该以一种包容的态度去了解它,改进它。这几年已经越来越多的统计学家加入到数据挖掘的研究中,也有很多统计学背景的人士进入数据挖掘领域工作,这点不管对数据挖掘还是对统计学都是非常大的进步,毕竟这种事本来就该我们来做,也最适合我们做。

------分隔线----------------------------
标签(Tag):数据挖掘
------分隔线----------------------------
推荐内容
猜你感兴趣