信息架构与网站设计

数据挖掘的背景知识

数据挖掘的背景知识

  • 作者:赵敏  来源:爱诺为   参与评论
  •  
  • 什么是数据挖掘?
    数据挖掘能做什么?
    数据挖掘的商业背景
    数据挖掘的技术背景
    数据挖掘的社会背景  

    0.什么是数据挖掘?

    数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。 


    数据挖掘能做什么?

    1)数据挖掘能做以下六种不同事情(分析方法):


    分类 (Classification)


    估值(Estimation)


    预言(Prediction)


    相关性分组或关联规则(Affinity grouping or association rules)


    聚集(Clustering)


    描述和可视化(Description and Visualization)

     

    2)数据挖掘分类

    以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘


    直接数据挖掘

    目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。


    间接数据挖掘

    目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。


    分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘

     

    3)各种分析方法的简介


    分类 (Classification)

    首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

    例子:

    a. 信用卡申请者,分类为低、中、高风险

    b. 分配客户到预先定义的客户分片

    注意: 类的个数是确定的,预先定义好的

     


    估值(Estimation)

    估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的。

    例子:

    a. 根据购买模式,估计一个家庭的孩子个数

    b. 根据购买模式,估计一个家庭的收入

    c. 估计real estate的价值

    一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类。例如:银行对家庭贷款业务,运用估值,给各个客户记分(Score 0~1)。然后,根据阈值,将贷款级别分类。

     


    预言(Prediction)

    通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。

    预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。

     


    相关性分组或关联规则(Affinity grouping or association rules)

    决定哪些事情将一起发生。

    例子:

    a. 超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)

    b. 客户在购买A后,隔一段时间,会购买B (序列分析)

     


    聚集(Clustering)

    聚集是对记录分组,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。

    例子:

    a. 一些特定症状的聚集可能预示了一个特定的疾病

    b. 租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群

    聚集通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

     


    描述和可视化(Description and Visualization)

    是对数据挖掘结果的表示方式。

     

    2.数据挖掘的商业背景

    数据挖掘首先是需要商业环境中收集了大量的数据,然后要求挖掘的知识是有价值的。有价值对商业而言,不外乎三种情况:降低开销;提高收入;增加股票价格。

    1)数据挖掘作为研究工具 (Research)

    2)数据挖掘提高过程控制(Process Improvement)

    3)数据挖掘作为市场营销工具(Marketing)

    4)数据挖掘作为客户关系管理CRM工具(Customer Relationship Management)

     

    3.数据挖掘的技术背景

    1)数据挖掘技术包括三个主要部分:算法和技术;数据;建模能力

    2)数据挖掘和机器学习(Machine Learning)


    机器学习是计算机科学和人工智能AI发展的产物


    机器学习分为两种学习方式:自组织学习(如神经网络);从例子中归纳出规则(如决策树)


    数据挖掘由来

    数据挖掘是八十年代,投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。选择数据挖掘这一术语,表明了与统计、精算、长期从事预言模型的经济学家之间没有技术的重叠。

    3)数据挖掘和统计

    统计也开始支持数据挖掘。统计本包括预言算法(回归)、抽样、基于经验的设计等

    4)数据挖掘和决策支持系统


    数据仓库


    OLAP(联机分析处理)、Data Mart(数据集市)、多维数据库


    决策支持工具融合

    将数据仓库、OLAP,数据挖掘融合在一起,构成企业决策分析环境。

     

    4. 数据挖掘的社会背景

    数据挖掘与个人预言:数据挖掘号称能通过历史数据的分析,预测客户的行为,而事实上,客户自己可能都不明确自己下一步要作什么。所以,数据挖掘的结果,没有人们想象中神秘,它不可能是完全正确的。

    客户的行为是与社会环境相关连的,所以数据挖掘本身也受社会背景的影响。比如说,在美国对银行信用卡客户信用评级的模型运行得非常成功,但是,它可能不适合中国。
  • 如何测试搜索引擎的索引量大小——转载
        摘要:背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。 首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华,去其糟粕,挑选出有价值的网页进行索引。因此,对用户而言,搜索引擎的索引量大小才更有意义。 其次,无限制增大索引量并不一定能保证搜索质量的提升。一方面,在全面性指标中,除索引量外,还需要考虑到收录网页的质量和不同类型网页的分布。另一方面,搜索引擎的质量指标体系要保证四方面的均衡发展,不是依靠单个指标的突破就可以改善的。目前包括雅虎中国在内的主流中文搜索引擎的网页索引量都在20亿量级,基本上可以满足用户的日常查询需求。     (全文共6708字)——点击此处阅读全文
    自己建设的中国社会科学信息门户开通了
        摘要:中国社会科学信息门户(www.cssig.org)是国内最先进的一个面向学术用户的网站。    (全文共413字)——点击此处阅读全文
    转载——搜索引擎的未来
        摘要:早些时候,雅虎、Google和微软负责搜索业务的人士在沃顿科技论坛谈了对未来搜索引擎的看法,三家公司对待搜索引擎的发展路径看法截然不同。 雅虎方面认为,搜索引擎的下一个重大的创新将是”社会搜索”,它能够实现信息相关度的民主化,普通用户来决定对于他们和其他用户而言什么是重要的。     (全文共2388字)——点击此处阅读全文
    转载——社会搜索的两个进步
        摘要: 作为社会搜索服务的忠实用户,最近这里发生的变化“很让人欣慰”。百度知道、新浪爱问的人气一路扶摇直上,越来越多的网民开始接受并参与这种由在线人群实施知识管理的搜索形式。除基于文字的搜索外,雅虎在2005年相继收购了照片共享网站Flickr、音频共享网站WebJay等几家公司,在打造多元搜索社区上投下重注。豆瓣网的崛起则从一个侧面验证了人们对传统信息传播的深情眷恋,其创新的评论推荐系统实现了由在线人群运作的信息筛选与过滤。    (全文共2690字)——点击此处阅读全文
    我给博客大佬们出个题目考考

    几乎每天都看Donews的新闻、评论和博客大佬的文章,看的多了,就有了一种感觉,这些博客大佬们口口都是web2。0,rss,tag,分类网站,播客。。。。。概念一个比一个新鲜,看的实在是过瘾,但是,关了电脑,躺在床上琢磨了一下,这些大佬们的谈论中好像少点什么。。。

    考虑了半天,今天突然开窍了,大佬们都是记者出身,没有学习过信息科学的理论,不信我就出个题目考察一下:

    1、什么是布拉德福定律?

    2、什么是奇普夫省力法则?

    3、什么是洛特卡定律?

    4、什么是普赖斯定律?

    也许你会问,这些概念与博客有关系吗?

    答案是肯定的,因为这些都是文献计量学的概念,如果我们将博客看作文献的话,我们也可以发展出博客计量学,或者说这是文献计量学的新发展。

    不信,你可以研究一下,核心博客、博客的文章产量、博客文章的半衰期。。。。这些概念都是很有价值的概念,怎么个有价值法,窃听下次分解。

    知识孤岛如何向知识大陆转换---博客的知识管理功能改进方向思考
        摘要:作者的观点给我一个启发,一直以来,我们都在寻找博客在知识管理上的价值,我们也找到了一些,用目前流行的说法就是,作为web2。0代表,博客发挥了普通网民的力量,让所有网民成为了信息的创造者和组织者。 事实上,紧紧看到这一点,并不能说明博客已经成为了社会性的知识组织工具,事实上,目前的博客组织架构还仅仅停留在个体组织阶段,也就是所个人博客空间中的信息和知识还是一个个知识孤岛,整个博客系统还没有从整个系统角度(咱不从整个社会角度即所有个博客运营整体的角度)提供一套完善的知识组织体系。目前的单个知识孤岛间的联系是由博客作者的友情连接变相实现的,那没到底有没有一个机制实现这些单个知识孤岛间的自动关联呢,也就是在没有办法实现“知识大陆”(单个博客运营商网站空间内的信息和知识)互连的情况下,“知识大陆“内部的孤岛能否实现有序组织呢?     (全文共1667字)——点击此处阅读全文
    招募学科门户建设志愿者(兼职)
        摘要:我是一名中国高校的普通的研究者,在校多年,深感中国学术界研究条件的坚信。 尽管今天,互联网资源已经及其丰富,网络上的各种用户也已经覆盖社会各个方面,其中研究人员不在少数。 我们的学术资源依旧十分稀少,特别是放到互联网上的可以自由下载的学术资源还十分稀少,这与国外的现状相比,实在是令人遗憾。     (全文共646字)——点击此处阅读全文
    美国情报学会的2004、2005与2006年信息与科学技术年度评论
        摘要:年度评论列表    (全文共9006字)——点击此处阅读全文

    第1页,共1页