机器学习实战图书
人气:81

机器学习实战

没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述 问题实例 实际代码 运行效果”来介绍每一个算法。
  • 所属分类:图书 >计算机/网络>程序设计>其他  
  • 作者:[美][哈林顿]
  • 产品参数:
  • 丛书名:--
  • 国际刊号:9787115317957
  • 出版社:人民邮电出版社
  • 出版时间:2013-06
  • 印刷时间:2013-06-01
  • 版次:1
  • 开本:16开
  • 页数:--
  • 纸张:胶版纸
  • 包装:平装-胶订
  • 套装:

内容简介

机器学习是人工智能研究领域中的一个极其重要的方向。在现今大数据时代的背景下,捕获数据并从中萃取有价值的信息或模式,使得这一过去为分析师与数学家所专属的研究领域越来越为人们瞩目。

本书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效可复用的Python代码阐释如何处理统计数据,进行数据分析及可视化。读者可从中学到一些核心的机器学习算法,并将其运用于某些策略性任务中,如分类、预测及推荐等。

本书适合机器学习相关研究人员及互联网从业人员学习参考。

编辑推荐

介绍并实现机器学习的主流算法

面向日常任务的高效实战内容

《机器学习实战》没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述 问题实例 实际代码 运行效果”来介绍每一个算法。学习计算机的人都知道,计算机是一门实践学科,没有真正实现运行,很难真正理解算法的精髓。这本书的好处就是边学边用,非常适合于急需迈进机器学习领域的人员学习。实际上,即使对于那些对机器学习有所了解的人来说,通过代码实现也能进一步加深对机器学习算法的理解。

《机器学习实战》的代码采用Python语言编写。Python代码简单优雅、易于上手,科学计算软件包众多,已经成为不少大学和研究机构进行计算机教学和科学计算的语言。相信Python编写的机器学习代码也能让读者尽快领略到这门学科的精妙之处。

作者简介

Peter Harrington

拥有电气工程学士和硕士学位,他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利,在三种学术期刊上发表过文章。他现在是Zillabyte公司的首席科学家,在加入该公司之前,他曾担任2年的机器学习软件顾问。Peter在业余时间还参加编程竞赛和建造3D打印机。

目录

及时部分 分类

第1章 机器学习基础

1.1 何谓机器学习

1.1.1 传感器和海量数据

1.1.2 机器学习非常重要

1.2 关键术语

1.3 机器学习的主要任务

1.4 如何选择合适的算法

1.5 开发机器学习应用程序的步骤

1.6 Python语言的优势

1.6.1 可执行伪代码

1.6.2 Python比较流行

1.6.3 Python语言的特色

1.6.4 Python语言的缺点及时部分 分类

第1章 机器学习基础

1.1 何谓机器学习

1.1.1 传感器和海量数据

1.1.2 机器学习非常重要

1.2 关键术语

1.3 机器学习的主要任务

1.4 如何选择合适的算法

1.5 开发机器学习应用程序的步骤

1.6 Python语言的优势

1.6.1 可执行伪代码

1.6.2 Python比较流行

1.6.3 Python语言的特色

1.6.4 Python语言的缺点

1.7 NumPy函数库基础

1.8 本章小结

第2章 k-近邻算法

2.1 k-近邻算法概述

2.1.1 准备:使用Python导入数据

2.1.2 从文本文件中解析数据

2.1.3 如何测试分类器

2.2 示例:使用k-近邻算法改进约会网站的配对效果

2.2.1 准备数据:从文本文件中解析数据

2.2.2 分析数据:使用Matplotlib创建散点图

2.2.3 准备数据:归一化数值

2.2.4 测试算法:作为完整程序验证分类器

2.2.5 使用算法:构建完整可用系统

2.3 示例:手写识别系统

2.3.1 准备数据:将图像转换为测试向量

2.3.2 测试算法:使用k-近邻算法识别手写数字

2.4 本章小结

第3章 决策树

3.1 决策树的构造

3.1.1 信息增益

3.1.2 划分数据集

3.1.3 递归构建决策树

3.2 在Python中使用Matplotlib注解绘制树形图

3.2.1 Matplotlib注解

3.2.2 构造注解树

3.3 测试和存储分类器

3.3.1 测试算法:使用决策树执行分类

3.3.2 使用算法:决策树的存储

3.4 示例:使用决策树预测隐形眼镜类型

3.5 本章小结

第4章 基于概率论的分类方法:朴素贝叶斯

4.1 基于贝叶斯决策理论的分类方法

4.2 条件概率

4.3 使用条件概率来分类

4.4 使用朴素贝叶斯进行文档分类

4.5 使用Python进行文本分类

4.5.1 准备数据:从文本中构建词向量

4.5.2 训练算法:从词向量计算概率

4.5.3 测试算法:根据现实情况修改分类器

4.5.4 准备数据:文档词袋模型

4.6 示例:使用朴素贝叶斯过滤垃圾邮件

4.6.1 准备数据:切分文本

4.6.2 测试算法:使用朴素贝叶斯进行交叉验证

4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向

4.7.1 收集数据:导入RSS源

4.7.2 分析数据:显示地域相关的用词

4.8 本章小结

第5章 Logistic回归

5.1 基于Logistic回归和Sigmoid函数的分类

5.2 基于化方法的回归系数确定

5.2.1 梯度上升法

5.2.2 训练算法:使用梯度上升找到参数

5.2.3 分析数据:画出决策边界

5.2.4 训练算法:随机梯度上升

5.3 示例:从疝气病症预测病马的死亡率

5.3.1 准备数据:处理数据中的缺失值

5.3.2 测试算法:用Logistic回归进行分类

5.4 本章小结

第6章 支持向量机

6.1 基于较大间隔分隔数据

6.2 寻找较大间隔

6.2.1 分类器求解的优化问题

6.2.2 SVM应用的一般框架

6.3 SMO高效优化算法

6.3.1 Platt的SMO算法

6.3.2 应用简化版SMO算法处理小规模数据集

6.4 利用完整Platt SMO算法加速优化

6.5 在复杂数据上应用核函数

6.5.1 利用核函数将数据映射到高维空间

6.5.2 径向基核函数

6.5.3 在测试中使用核函数

6.6 示例:手写识别问题回顾

6.7 本章小结

第7章 利用AdaBoost元算法提高分类

性能

7.1 基于数据集多重抽样的分类器

7.1.1 bagging:基于数据随机重抽样的分类器构建方法

7.1.2 boosting

7.2 训练算法:基于错误提升分类器的性能

7.3 基于单层决策树构建弱分类器

7.4 完整AdaBoost算法的实现

7.5 测试算法:基于AdaBoost的分类

7.6 示例:在一个难数据集上应用AdaBoost

7.7 非均衡分类问题

7.7.1 其他分类性能度量指标:正确率、召回率及ROC曲线

7.7.2 基于代价函数的分类器决策控制

7.7.3 处理非均衡问题的数据抽样方法

7.8 本章小结

第二部分 利用回归预测数值型数据

第8章 预测数值型数据:回归

8.1 用线性回归找到拟合直线

8.2 局部加权线性回归

8.3 示例:预测鲍鱼的年龄

8.4 缩减系数来“理解”数据

8.4.1 岭回归

8.4.2 lasso

8.4.3 前向逐步回归

8.5 权衡偏差与方差

8.6 示例:预测乐高玩具套装的价格

8.6.1 收集数据:使用Google购物的API

8.6.2 训练算法:建立模型

8.7 本章小结

第9章 树回归

9.1 复杂数据的局部性建模

9.2 连续和离散型特征的树的构建

9.3 将CART算法用于回归

9.3.1 构建树

9.3.2 运行代码

9.4 树剪枝

9.4.1 预剪枝

9.4.2 后剪枝

9.5 模型树

9.6 示例:树回归与标准回归的比较

9.7 使用Python的Tkinter库创建GUI

9.7.1 用Tkinter创建GUI

9.7.2 集成Matplotlib和Tkinter

9.8 本章小结

第三部分 无监督学习

第10章 利用K-均值聚类算法对未标注数据分组

10.1 K-均值聚类算法

10.2 使用后处理来提高聚类性能

10.3 二分K-均值算法

10.4 示例:对地图上的点进行聚类

10.4.1 Yahoo! PlaceFinder API

10.4.2 对地理坐标进行聚类

10.5 本章小结

第11章 使用Apriori算法进行关联分析

11.1 关联分析

11.2 Apriori原理

11.3 使用Apriori算法来发现频繁集

11.3.1 生成候选项集

11.3.2 组织完整的Apriori算法

11.4 从频繁项集中挖掘关联规则

11.5 示例:发现国会投票中的模式

11.5.1 收集数据:构建美国国会投票记录的事务数据集

11.5.2 测试算法:基于美国国会投票记录挖掘关联规则

11.6 示例:发现毒蘑菇的相似特征

11.7 本章小结

第12章 使用FP-growth算法来高效发现频繁项集

12.1 FP树:用于编码数据集的有效方式

12.2 构建FP树

12.2.1 创建FP树的数据结构

12.2.2 构建FP树

12.3 从一棵FP树中挖掘频繁项集

12.3.1 抽取条件模式基

12.3.2 创建条件FP树

12.4 示例:在Twitter源中发现一些共现词

12.5 示例:从新闻网站点击流中挖掘

12.6 本章小结

第四部分 其他工具

第13章 利用PCA来简化数据

13.1 降维技术

13.2 PCA

13.2.1 移动坐标轴

13.2.2 在NumPy中实现PCA

13.3 示例:利用PCA对半导体制造数据降维

13.4 本章小结

第14章 利用SVD简化数据

14.1 SVD的应用

14.1.1 隐性语义索引

14.1.2 推荐系统

14.2 矩阵分解

14.3 利用Python实现SVD

14.4 基于协同过滤的推荐引擎

14.4.1 相似度计算

14.4.2 基于物品的相似度还是基于用户的相似度?

14.4.3 推荐引擎的评价

14.5 示例:餐馆菜肴推荐引擎

14.5.1 推荐未尝过的菜肴

14.5.2 利用SVD提高推荐的效果

14.5.3 构建推荐引擎面临的挑战

14.6 基于SVD的图像压缩

14.7 本章小结

第15章 大数据与MapReduce

15.1 MapReduce:分布式计算的框架

15.2 Hadoop流

15.2.1 分布式计算均值和方差的mapper

15.2.2 分布式计算均值和方差的reducer

15.3 在Amazon网络服务上运行Hadoop程序

15.3.1 AWS上的可用服务

15.3.2 开启Amazon网络服务之旅

15.3.3 在EMR上运行Hadoop作业

15.4 MapReduce上的机器学习

15.5 在Python中使用mrjob来自动化MapReduce

15.5.1 mrjob与EMR的无缝集成

15.5.2 mrjob的一个MapReduce脚本剖析

15.6 示例:分布式SVM的Pegasos算法

15.6.1 Pegasos算法

15.6.2 训练算法:用mrjob实现MapReduce版本的SVM

15.7 你真的需要MapReduce吗?

15.8 本章小结

附录A Python入门

附录B 线性代数

附录C 概率论复习

附录D 资源

索引

版权声明

在线预览

大学毕业后,我先后在加利福尼亚和中国大陆的Intel公司工作。最初,我打算工作两年之后回学校读研究生,但是幸福时光飞逝而过,转眼就过去了六年。那时,我意识到我必须回到校园。我不想上夜校或进行在线学习,我就想坐在大学校园里吸纳学校传授的所有知识。在大学里,好的方面不是你研修的课程或从事的研究,而是一些活动:与人会面、参加研讨会、加入组织、旁听课程,以及学习未知的知识。

在2008年,我帮助筹备一个招聘会。我同一个大型金融机构的人交谈,他们希望我去应聘他们机构的一个对信用卡建模(判断某人是否会偿还贷款)的岗位。他们问我对随机分析了解多少,那时,我并不能确定“随机”一词的意思。他们提出的工作地点令我无法接受,所以我决定不再考虑了。但是,他们说的“随机”让我很感兴趣,于是我拿来课程目录,寻找含有“随机”字样的课程,我看到了“离散随机系统”。我没有注册就直接旁听了这门课,完成课后作业,参加考试,最终被授课教授发现。但是她很仁慈,让我继续学习,这让我非常感激。上这门课,是我及时次看到将概率应用到算法中。在这之前,我见过一些算法将平均值作为外部输入,但这次不同,方差和均值都是这些算法中的内部值。这门课主要讨论时间序列数据,其中每一段数据都是一个均匀间隔样本。我还找到了名称中包含“机器学习”的另一门课程。该课程中的数据并不假设满足时间的均匀间隔分布,它包含更多的算法,但严谨性有所降低。再后来我意识到,在经济系、电子工程系和计算机科学系的课程中都会讲授类似的算法。

2009年初,我顺利毕业,并在硅谷谋得了一份软件咨询的工作。接下来的两年,我先后在涉及不同技术的八家公司工作,发现了最终构成这本书主题的两种趋势:及时,为了开发出竞争力强的应用,不能仅仅连接数据源,而需要做更多事情;第二,用人单位希望员工既懂理论也能编程。

程序员的大部分工作可以类比于连接管道,所不同的是,程序员连接的是数据流,这也为人们带了巨大的财富。举一个例子,我们要开发一个在线出售商品的应用,其中主要部分是允许用户来商品并浏览其他人的商品。为此,我们需要建立一个Web表单,允许用户输入所售商品的信息,然后将该信息传到一个数据存储区。要让用户看到其他用户所售商品的信息,就要从数据存储区获取这些数据并适当地显示出来。我可以确信,人们会通过这种方式挣钱,但是如果让要应用更好,需要加入一些智能因素。这些智能因素包括自动删除不适当的信息、检测不正当交易、给出用户可能喜欢的商品以及预测网站的流量等。为了实现这些目标,我们需要应用机器学习方法。对于最终用户而言,他们并不了解幕后的“魔法”,他们关心的是应用能有效运行,这也是好产品的标志。

一个机构会雇用一些理论家(思考者)以及一些做实际工作的人(执行者)。前者可能会将大部分时间花在学术工作上,他们的日常工作就是基于论文产生思路,然后通过高级工具或数学进行建模。后者则通过编写代码与真实世界交互,处理非理想世界中的瑕疵,比如崩溃的机器或者带噪声的数据。区分这两类人并不是个好想法,很多成功的机构都认识到这一点。(精益生产的一个原则就是,思考者应该自己动手去做实际工作。)当招聘经费有,谁更能得到工作,思考者还是执行者?很可能是执行者,但是现实中用人单位希望两种人都要。很多事情都需要做,但当应用需要更高要求的算法时,那么需要的人员就必须能够阅读论文,领会论文思路并通过代码实现,如此反复下去。

在这之前,我没有看到在机器学习算法方面缩小思考者和执行者之间差距的书籍。本书的目的就是填补这个空白,同时介绍机器学习算法的使用,使得读者能够构建更成功的应用。

……

媒体评论

“易学易懂,用处很大。”

Alexandre Alves,Oracle CEP的架构师

“精心织构的代码地诠释出机器学习的核心要义。”

Patrick Toohey,Mettler-Toledo Hi-Speed软件工程师

“实例很棒!可用于任何领域!”

John Griffin,Hibernate Search in Action一书的合作者

“叙述循序渐进,巧妙地阐述了算法之间的差异。”

Stephen McKamey,Isomer Innovations技术实践总监

网友评论(不代表本站观点)

来自无昵称**的评论:

小白入门机器学习,听说这本书很棒就买来看看

2017-11-13 22:33:21
来自匿名用**的评论:

收到后,大致翻了一下,里面有完整的Python代码,不错

2017-11-11 20:04:58
来自比树还**的评论:

一直很喜欢机器学习,所以看了好久买了。希望当当经常做专业类书籍的特卖活动。

2015-10-23 21:18:45
来自zjt梦回**的评论:

上手很快,概念和代码均有详细介绍,而且介绍的几种算法都是主流的,挺适合新手和实战学习的

2017-08-03 10:13:38
来自无昵称**的评论:

粗略翻了一下,应该是正品。有例子,适合有一定Python、线性代数和概率论基础的童鞋。

2016-11-14 11:13:11
来自bjguxg**的评论:

用例子讲解的方式,介绍了基本的机器学习算法,用python语言进行介绍,一举两得

2015-04-15 08:27:47
来自无昵称**的评论:

以通俗语言去讲解机器学习算法,并对其中的思想用实例去讲解,是一本不可多得的好书,本人特别喜欢,赞一个!!!!!

2014-12-23 16:28:57
来自无昵称**的评论:

这本书是两个师兄推荐的 挺好的 就是没有时间去试运行每一个例子

2017-09-23 15:45:19
来自entol**的评论:

这本书绝对不适合入门的人看,不过想要提升Python的朋友可以看看,这本书讲解了许多算法,相信能帮你提升一个水平

2016-01-17 18:00:04
来自hui_li**的评论:

看微博大牛们推荐才来买,还没看。马少平THU:周末粗看了一边@王斌_ICTIR 翻译的《机器学习实战》一书,如同书名一样,只讲实战,不涉及原理。对于使用机器学习方法解决其他问题的初学者是一本很好的快速掌握机器学习方法的入门书。再配合@李航博士 的《统计学习方法》,对于不研究机器学习方法,只用于求解问题的人来说,是一个很好的组合。

2013-06-24 22:41:02
来自梅***(**的评论:

买来学习的,很具有可操作性。可与网络材料对比使用。

2017-09-28 21:20:24
来自stevenz**的评论:

讲python用于机器学习的书,实践性强,理论偏弱

2016-04-23 23:31:48
来自张建110**的评论:

机器学习挺热的,看见这本排名靠前就买了,还没仔细看

2016-06-06 17:01:18
来自思之于**的评论:

机器学习是未来的趋势,现在学习是未来不被浪潮推翻

2016-04-24 19:13:13
来自feilong**的评论:

机器学习实战【利用Python透析主流机器学习算法,配合日常用例,强劲实战导向,程序员人手必备!】

2014-04-06 09:05:35
来自xiangxt**的评论:

介绍算法的部分没有看到伪代码之类的。直接程序里去介绍。书的总体布局不错。最关键的是,人民邮电翻译的非常好。这本书的英文版我自己打印过。所以,买中文版的时候最关心的就是翻译。这方面算是过关吧。

2013-07-19 08:14:13
来自无昵称**的评论:

心爱的机器学习书,包装完好,虽然已经看了电子版,还是入手一本

2016-12-09 21:20:44
来自l***6(**的评论:

这本书程序和算法并存,python与伪代码共舞,写的非常好,如果算法再多些会更好。书特别适合入门

2017-06-17 17:02:15
来自无昵称**的评论:

很不错的一本实战书籍,后面还附带了阅读所需得知识点提要。配合机器学习的课程视频一起看效果更佳

2017-02-09 15:07:57
来自匿名用**的评论:

书收到了,非常好,很经典的书。应该说是机器学习入门的必看书籍吧。

2017-06-01 23:12:44
来自无昵称**的评论:

每段代码讲的都很详细,很棒的一本书,适合想学用Python进行数据分析的初学者

2017-09-26 14:06:15
来自neujimm**的评论:

这本书我感觉是机器学习领域里写的特别平实的一本,没有太多理论说教,就是给出例子告诉你怎么去做,很适合初学者学习。

2016-04-23 22:26:43
来自匿名用**的评论:

送快递的脑子有病吧?送到公司前台一通骂,说地址没写楼层害的自己找了半天,闹得一层楼的人都知道,结果他妈的是自己没看清,本来就是写好了的,神经病,再也不在当当买书了!!!

2017-02-14 15:12:52
来自无昵称**的评论:

我一直以为评价只是一句话,对大家没什么帮助,自从知道了评价有得积分,积分再换那几分钱,我觉定还是说点么用的,换点钱。于是,我就发了这评论,所以,就这评论有什么卵用?答案是;没有。

2016-11-01 17:50:31
来自起***o(**的评论:

内容很好,就是没有线性分类器的实现,基本上主要的机器学习算法都有了

2017-03-19 08:44:03
来自***(匿**的评论:

python代码配合伪代码,完美,一边学习机器学习一边学习python,作为第二语言,很不错。

2017-03-13 19:24:22
来自hezexia**的评论:

这本书涉及机器学习的代码实现,适合我这样的初学菜鸟。。。

2017-08-22 10:15:39
来自匿名用**的评论:

一直想买的书,对phython理解有帮助,对机器学习的讲解也和细

2017-07-19 21:26:51
来自无昵称**的评论:

机器学习中算是良心之作了,比很多都要好的多。

2017-08-25 11:13:39
来自无昵称**的评论:

介绍机器学习的入门书,使用Python实现。示范的例子都挺有趣的,比如国会选举、twitter数据的分析。算法的覆盖面挺广,可惜原理的讲解有些浅,因此需要一些基础知识。书中没有神经网络算法的介绍,有些遗憾。

2016-04-27 21:05:24
登录后即可发表评论

免责声明

更多相关图书
在线咨询