Web数据挖掘

出版时间:2009-4  出版社:清华大学出版社  作者:刘兵  页数:375  字数:594000  译者:俞勇  
Tag标签:无  

前言

作为互联网上最重要的应用之一,Web(万维网)提供了便捷的文档发布与获取机制,并逐步成为各类信息资源的聚集地。据Google于2008年发布的官方报告,它们已经在互联网上发现超过1万亿个Web文档,而且这个数字还在以每天几十亿的速度持续增长。面对如此巨大的信息量,普通Web用户往往迷失其中,他们迫切需要一种机制快速定位到所需信息。Web数据挖掘便应运而生,并且伴随Web的发展而备受关注。Web数据挖掘它建立在信息检索、数据挖掘以及知识管理等技术的基础上,通过对大量Web文档进行分析来获得隐含的知识和模式,从而帮助人们更好地进行信息搜索和决策制定。反过来,可以说,也正是Web挖掘技术的不断进展,推动了Web的进一步蓬勃发展。目前Web数据挖掘已经引起了学术界、工业界、社会学家的广泛关注,也吸引了众多研究人员与开发人员投身其中。国内外很多大学与研究机构先后开设了Web挖掘课程。但长期以来并没有专门针对Web挖掘的教材与专著。刘兵教授出版的这本著作填补了该领域的空白。该教材针对Web挖掘中众多关键主题进行了深入分析。清华大学出版社独具慧眼,决定将该书翻译成中文版在国内出版,这必将对我国Web挖掘的教学与研究产生积极的推动作用,有幸承担该书的翻译工作,我们感到十分荣幸。本书是由伊利诺伊大学芝加哥分校(UIC)的刘兵(Bing Liu)教授历经一年的时间所著的"Web Data Mining"的翻译版。刘兵教授是Web挖掘研究领域的国际知名专家,曾担任多个国际期刊的编辑,也是多个国际学术会议(如WWW、KDD与AAAI等)的程序委员会委员。刘兵教授在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣。他先后在国际著名学术期刊与重要国际学术会议上发表论文一百多篇。本教材中的部分章节也融入了刘兵教授从事Web挖掘研究多年的心血。全书主要包括前言和12个章节。本书的翻译和审校由俞勇、薛贵荣和韩定一共同完成。其中,俞勇负责前言、第1章和第2章,薛贵荣负责第3~7章,韩定一负责第8~12章。参加翻译工作的还有韩定一(前言、第1章、第8章)、徐生良(第2章)、凌霄(第3章)、郭晋文(第4章、第5章)、王亮(第6章)、陈林虎(第7章)、傅临云(第9章)、第7张迪(第10章)、包胜华(第11章)和王乐天(第12章)等。上海交通大学APEX数据和知识管理实验室的全体同学参加了本书的校对工作。在本书的翻译过程中,得到了刘兵教授的大力支持。他向译者提供了全文书稿的最终版本,并对翻译工作提出了指导性建议。同时,感谢微软亚洲研究院李航博士的引荐,使我们有机会学习和翻译此书。最后,感谢清华大学出版社的龙启铭编辑,是他的远见,使得本书能够尽快与读者见面。由于本书所涉及到内容非常广泛,许多术语目前尚无固定译法,翻译难度相对较大。尽管我们对某些术语进行了推敲,但仍然可能出现词不达意的地方。此外,由于译者水平有限,译文中不当之处也在所难免。我们也真诚地希望同行与读者朋友们不吝赐教。

内容概要

本书旨在讲述这些任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是本书的特色,这些内容在已有书籍中没有提及,但它们在Web数据挖掘中却占有非常重要的地位。当然,传统的Web挖掘主题,如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。    本书尽管题为“Web数据挖掘”,却依然涵盖了数据挖掘和信息检索的核心主题;因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习(分类)、无监督学习(聚类)这三大最重要的数据挖掘任务,以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。

作者简介

刘兵(Bing Liu),伊利诺伊大学芝加哥分校(tnc)教授,他在爱丁堡大学获得人工智能博士学位。刘兵教授是Web挖掘研究领域的国际知名专家,在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣,他先后在国际著名学术期刊与重要国际学术会议(如KDD、www、AAAl

书籍目录

第一部分 数据挖掘基础  第1章 概述    1.1 什么是万维网    1.2 万维网和互联网的历史简述    1.3 Web数据挖掘    1.4 各章概要    1.5 如何阅读本书    文献评注  第2章 关联规则和序列模式    2.1 关联规则的基本概念    2.2 Apriori算法    2.3 关联规则挖掘的数据格式    2.4 多最小支持度的关联规则挖掘    2.5 分类关联规则挖掘    2.6 序列模式的基本概念    2.7 基于GSP挖掘序列模式    2.8 基于PrefixSpan算法的序列模式挖掘    2.9 从序列模式中产生规则    文献评注  第3章 监督学习    3.1 基本概念    3.2 决策树推理    3.3 评估分类器    3.4 规则推理    3.5 基于关联规则的分类    3.6 朴素贝叶斯分类    3.7 朴素贝叶斯文本分类    3.8 支持向量机    3.9 k-近邻学习    3.10 分类器的集成    文献评注  第4章 无监督学习    4.1 基本概念    4.2 k-均值聚类    4.3 聚类的表示    4.4 层次聚类    4.5 距离函数    4.6 数据标准化    4.7 混合属性的处理    4.8 采用哪种聚类算法    4.9 聚类的评估    4.10 发现数据区域和数据空洞    文献评注  第5章 部分监督学习    5.1 从已标注数据和无标注数据中学习    5.2 从正例和无标注数据中学习    附录: 朴素贝叶斯EM算法的推导    文献评注第二部分 Web挖掘  第6章 信息检索与Web搜索    6.1 信息检索中的基本概念    6.2 信息检索模型    6.3 关联性反馈    6.4 评估标准    6.5 文本和网页的预处理    6.6 倒排索引及其压缩    6.7 隐式语义索引    6.8 Web搜索    6.9 元搜索引擎和组合多种排序    6.10 网络作弊    文献评注  第7章 链接分析  第8章 Web爬取  第9章 结构化数据抽取:包装器生成  第10章 信息集成  第11章 观点挖掘  第12章 Web使用挖掘

章节摘录

插图:第一部分 数据挖掘基础第1章 概述1.2 万维网和互联网的历史简述万维网的创立:万维网最初是由Tim Berners—Lee于1989年发明的。当时,他在位于瑞士的欧洲粒子物理实验室(Centre European pour la Recherche Nucleaire,或European Laboratory for Particle Physics,CERN)工作。他给万维网命名,并且编写了世界上首个万维网服务器httpd和世界上首个客户端程序(包括一个浏览器和一个编辑器World Wide Web)。事件起源于1989年3月,当时Tim Berners—Lee向他在CERN的导师提交了一份名为“信息管理提议”的提议书。在这份提议中,他讨论了层次化信息组织的缺点,并且描绘出基于超文本系统的优点。提议书建议设计一套简单的协议,使得用户可以通过网络请求存放在远端系统上的信息;并创立一套使信息可以用相同格式被互相交换,并且用户可以通过超链接把相关文档链接起来的机制。其中还提到如何使用当时在CERN的一些文本阅读和图形显示的技术。提议书完整地描述了分布式超文本系统(Distributed Hypertext System),也就是当今万维网的基础构架。起初,这份提议书并没有获得足够的支持。然而,在1990年,Berners—Lee重新分发了提议书,并获得了足够的支持来展开工作。在这个项目中,Berners—Lee和他在CERN的团队为最终把万维网发展成为分布式超文本系统铺平了道路。他们设计了服务器、浏览器、用于在客户端和服务器之间进行通讯的协议——超本文传输协议(HyperText Transfer Protocol,HTTP)、用于编辑网络文档的超文本标记语言(HyperText Markup Language,HTML),以及统一资源定位符(Universal Resource Locator,URL)。万维网从此开始迅速发展。Mosaic和Netscape:下一个万维网的重要事件是Mosaic的出现。1993年2月,来自美国伊利诺伊斯大学国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)的Marc Andreesen和他的团队发布了UNIX操作系统上图形界面的 网络浏览器一Mosaic for X。

编辑推荐

《Web数据挖掘》为世界著名计算机教材精选之一。

图书封面

图书标签Tags

评论、评分、阅读与下载


    Web数据挖掘 PDF格式下载


用户评论 (总计112条)

 
 

  •   数本身介绍的内容比较新,而且很全面。应该算是web数据挖掘里边一本表宏观的参考书。如果你是要研究某个算法的,那就算了!这本书在算法研究生写的不是很多~~更多的是一些总结性的研究。每个章节都是对该章内容,当前研究的一个总结。大家可以买回来当参考书,如果是要学习web数据挖掘。可以做一个入门的参考书,从宏观上了解web数据挖掘的一个框架。具体算法可以再买别的参考书看看。
  •   书的质量很好,是一本数据挖掘以及web数据挖掘的入门和时间学习课本。
    值得一看。
  •   很经典的WEB数据挖掘书,有点高深
  •   先讲数据挖掘的基本知识,然后再是web挖掘的知识。
    有些地方讲的比较晦涩,看的很难懂。
    但慢慢看应该会好些·
  •   非常适合初学者,了解一下web数据挖掘的方法
  •   数据挖掘中十大经典算法都提到了,是一本模式识别在数据挖掘中应用描述的书,特别赞的是把万维网和互联网很清楚得描述是不一样的东西。。。
  •   对学习数据挖掘很有用处,值得一看!
  •   理论性强,可以加强对数据挖掘方向概念理解
  •   是本数据挖掘的好书
  •   书挺好的,介绍了web信息抽取领域中的一些方法,但就是不太详细!
  •   对于做web开发的程序员,或设计者,这本书无疑是强化自己。书的内容、质量都很好
  •   比较有深度,理解得比较透彻,尤其是数据抽取、信息集成等内容,有较深的高度。适合有较高理论和实践基础的人使用。
  •   都是从最新的论文里截取的算法和思想,很好很强大!!!
  •   非常有用的书籍,但千万别给工程师看,作为学习和研究的书籍很好。
  •   这本书我觉得还不错,刚拿到手,就迫不及待的看了一些内容,也正是我需要的,感觉是我这个阶段非常需要的,对于做研究真的很不错,直接看英文文献,可能太费力,先看下此书,你再看英文文献就容易理解多了。
  •   努力学习中,里面给出的例子相结合,容易理解
  •   书还是不错,内容很深,要好好研究……
  •   书的内容很好,都是比较新的知识,讲解得也比较到位。
    纸张再厚实一些就好了。
  •   正版,内容不错,老公很喜欢的一本书
  •   书的质量不错,内容还得慢慢看。
  •   书不错,很有内容
  •   挺不错的一本书。从入门到深入都来一遍。不错。
  •   译者是交大ACM试点班的掌门人,手下是牛人辈出。翻译的质量也有所保证。
  •   这本书对于准备开展相关研究的入门者是很有帮助的。
  •   这本书写得有一定深度,值得细细研究。
  •   内容比较新颖,慢慢看
  •   帮别人买的,据说质量不错,内容也挺好。
  •   质量不错,内容肯定经典,但就是章节的排版有点不满意!
  •   给别人买的,所以不知道内容好坏哦,我选择的货到付款,感觉挺不错的,就服务来讲。
  •   内容比较新,翻译的也可以。
  •   最喜欢当当的服务和送货速度
  •   老师推荐的,很好的一本书,但稍偏难,比较概括
  •   这本书以前在学校看过,有点深度,同时也正是我所需要的
  •   说是不错的书 我也不懂
  •   硕士上课,老师推荐买的。挺不错的书
  •   这系列的书买了许多 都还不错 比较喜欢
  •   读了一段时间了,我个人认为不错,翻译还可以,但还有提升的空间
  •   还好就是好多公式数学不好伤不起呀
  •   速度好快,上午下单,下午就来了。赞啊
  •   嗯,很好!
  •   以前接触这方面比较少,看后很有帮助。
  •   好书,顺便赞下当当的送货速度
  •   不错,对我非常 有帮助
  •   有点难度,对于我这个菜鸟
  •   原著不错!俞勇翻译得经典!
  •   看过之后,感觉确实是一本值得研读的好书。
  •   此书是数据挖掘的一本书,主要是从web应用挖掘出发。
    但是,数据挖掘概念与技术这本书更适合那些想全面了解数据挖掘的人。
  •   对Web数据挖掘涉及到内容进行了重点介绍 精简而又实用 但是翻译质量一般 建议对照使用
  •   Web数据挖掘 这书翻译的不咋地啊。。有些话看着别扭。。只怪自己英文太差。。
  •   WEB数据挖掘方面的经典图书,第二次买了,这一次买给实验室的研究生。
  •   基本的介绍了,但是貌似不是刘兵原版的,是改版了吗
  •   模型算法较多,不是实际应用的
  •   正是我要学习的,知识也比较全面使用
  •   对于学习计算机的和想从事数据库工作的都适合一看。
  •   书的内容不错,适合搞研究时用,不过应用性方面不够强!
  •   书很有启发性,不过内容很难,对于有自学能力和研究能力的很过瘾
  •   送货还算迅速,大冷天的,很期待好好的学习一下,
  •   本书比较系统,但部分章节写的一般
  •   排版印刷内容都很不错
  •   内容很好、全面,细致,不过现在还没看完
  •   比较好的一本书,先看看了
  •   书不错,挺好的。很早想买了。
  •   我是前几天收到的书,时间还挺快,就是纸的质量一般。
  •   1.同样的书,**网是75折,差价较大。
    2.我是12月21日下订单,31日才收到书。
    3.书质量挺好,快递师傅服务好。
  •   基础,简洁
  •   还行吧,深度不够!
  •   数学公式很多,理论很多,不适合实战
  •   没看到我想看的东西
  •   我还是看不懂
  •   还有一本印度人写的,看完这部接着看
  •   还不错,可以看下,开阔下视野
  •   书讲得不太详细,未抓住重点写,书名为web数据挖掘,应当将重点放在web使用挖掘及web文本挖掘上,而后者介绍得不多
  •   对现在的技术有点跟不上!
  •   自己看有点费劲,当教材很合适
  •   还没看,不知道怎么样。
  •   纸张不怎么的,跟价格不咋相称
  •   这本书的内容比较深奥,注重算法,偏学术
    个人认为在工作中的用处不大
  •   很不错的书,可惜实际用到的不多
  •   适合IT新手普及知识
  •   还可以, 可以一看
  •   原作与翻译都还不错。PP185翻译有个小失误,图7.7 PageRank的幂迭代方法第4行公式的最后一个部分,原文是dA(T)P(k-1)误翻译成dA(T)(k-1),少了一个P。
  •   很好不错,我喜欢很好不错,我喜欢
  •   印刷OK,没有问题的。
  •   书很值得看,邮过来也很新,速度比较快。
  •   朋友买的一本书 用来做毕业设计,我没有看里面的内容就不做评价了 ,给个四星,希望作者不要打我..
  •   内容点到为止,比较新,面广
  •   初学者可以买本看看,不过很多东西要实际做了才知道
  •   还是值得一买的,通俗易懂
  •   简洁易懂,深入浅出,很实用.
  •   可以,是一本好书,适合初学者
  •   防伪标志遇水没有完全消失。。。是怎么回事,纸张摸得也不是特别舒服。。。但比盗版质量好很多,应该是正版中的次品吧。。。亚马逊你的节操呢
  •   书挺好的,边听课边看效果更好。
  •   一本数据挖掘类的好书,绝对给好评!
  •   书不错,老师推荐的教材
  •   挺薄的一本书,内容很好,教材
  •   很火的一本技术书
  •   刚收到货,书很不错!
  •   数据挖掘好书
  •   好书,不过看的比较难
  •   学术意味太强
 

250万本中文图书简介、评论、评分,PDF格式免费下载。 第一图书网 手机版

京ICP备13047387号-7