用Python写网络爬虫图书
人气:93

用Python写网络爬虫

用Python进行数据处理和数据挖掘的代表著作 剖析网络爬虫技术的实现原理 精通Python网络爬虫实战
  • 所属分类:图书 >计算机/网络>程序设计>其他  
  • 作者:[澳][理查德] [劳森]([Richard] [Lawson])
  • 产品参数:
  • 丛书名:--
  • 国际刊号:9787115431790
  • 出版社:人民邮电出版社
  • 出版时间:2016-08
  • 印刷时间:2016-08-01
  • 版次:1
  • 开本:128开
  • 页数:--
  • 纸张:胶版纸
  • 包装:平装
  • 套装:

内容简介

《用Python写网络爬虫》讲解了如何使用Python来编写网络爬虫程序,内容包括网络爬虫简介,从页面中抓取数据的三种方法,提取缓存中的数据,使用多个线程和进程来进行并发抓取,如何抓取动态页面中的内容,与表单进行交互,处理页面中的验证码问题,以及使用Scarpy和Portia来进行数据抓取,使用本书介绍的数据抓取技术对几个真实的网站进行了抓取,旨在帮助读者活学活用书中介绍的技术。 《用Python写网络爬虫》适合有一定Python编程经验,而且对爬虫技术感兴趣的读者阅读。

编辑推荐

作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。 《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。 《用Python写网络爬虫》介绍了如下内容: 通过跟踪链接来爬取网站; 使用lxml从页面中抽取数据; 构建线程爬虫来并行爬取页面; 将下载的内容进行缓存,以降低带宽消耗; 解析依赖于JavaScript的网站; 与表单和会话进行交互; 解决受保护页面的验证码问题; 对AJAX调用进行逆向工程; 使用Scrapy创建高级爬虫。 本书读者对象 本书是为想要构建的数据爬取解决方案的开发人员写作的,本书假定读者具有一定的Python编程经验。当然,具备其他编程语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理。

作者简介

Richard Lawson来自澳大利亚,毕业于墨尔本大学计算机科学专业。毕业后,他创办了一家专注于网络爬虫的公司,为超过50个国家的业务提供远程工作。他精通于世界语,可以使用汉语和韩语对话,并且积极投身于开源软件。他目前在牛津大学攻读研究生学位,并利用业余时间研发自主无人机。

目录

目录

第1章 网络爬虫简介 1

1.1网络爬虫何时有用1

1.2网络爬虫是否合法2

1.3背景调研3

1.3.1检查robots.txt3

1.3.2检查网站地图4

1.3.3估算网站大小5

1.3.4识别网站所用技术7

1.3.5寻找网站所有者7

1.4编写及时个网络爬虫8

1.4.1下载网页9

1.4.2网站地图爬虫12

1.4.3ID遍历爬虫13

1.4.4链接爬虫15

1.5本章小结22

第2章数据抓取23

2.1分析网页23

2.2三种网页抓取方法26

2.2.1正则表达式26

2.2.2Beautiful Soup28

2.2.3Lxml30

2.2.4性能对比32

2.2.5结论35

2.2.6为链接爬虫添加抓取回调35

2.3本章小结38

第3章下载缓存39

3.1为链接爬虫添加缓存支持39

3.2磁盘缓存42

3.2.1实现44

3.2.2缓存测试46

3.2.3节省磁盘空间46

3.2.4清理过期数据47

3.2.5缺点48

3.3数据库缓存49

3.3.1NoSQL是什么50

3.3.2安装MongoDB50

3.3.3MongoDB概述50

3.3.4MongoDB缓存实现52

3.3.5压缩54

3.3.6缓存测试54

3.4本章小结55

第4章并发下载57

4.1100万个网页57

4.2串行爬虫60

4.3多线程爬虫60

4.3.1线程和进程如何工作61

4.3.2实现61

4.3.3多进程爬虫63

4.4性能67

4.5本章小结68

第5章动态内容69

5.1动态网页示例69

5.2对动态网页进行逆向工程72

5.3渲染动态网页77

5.3.1PyQt还是PySide78

5.3.2执行JavaScript78

5.3.3使用WebKit与网站交互80

5.3.4Selenium85

5.4本章小结88

第6章表单交互89

6.1登录表单90

6.2

网友评论(不代表本站观点)

来自yingyul**的评论:

~~~~~

2017-11-14 22:59:24
来自无昵称**的评论:

好还好还好哈

2017-11-16 08:59:21
来自无昵称**的评论:

不如看些开源代码

2017-11-18 13:15:46
来自无昵称**的评论:

值得一读。

2017-11-13 09:19:11
来自无昵称**的评论:

休闲书目,发货快,很方便。

2017-11-13 15:29:36
来自无昵称**的评论:

需要有一定网络基础看,不然有点吃力。

2017-11-11 17:50:04
来自匿名用**的评论:

那么薄一本。。。

2017-11-09 16:38:48
来自dlllwlw**的评论:

很不错的书,实用

2017-11-09 21:39:14
来自daizhig**的评论:

书内容还是不错的,就是有点薄

2017-11-10 08:04:01
来自无昵称**的评论:

还可以,就是内容比较少

2017-11-11 11:05:57
来自无昵称**的评论:

紧跟技术发展 对工作帮助大 实用性强 专业性强

2017-11-01 10:07:03
来自乱七八**的评论:

还没看,不过应该可以

2017-11-02 20:02:12
来自qpkhl62**的评论:

Satisfied

2017-11-03 20:13:13
来自无昵称**的评论:

以python2.7版写的,怎么玩?

2017-11-06 10:02:51
来自阿修罗**的评论:

python很适合用来写爬虫,这本书挺好的,只是有些小贵。

2016-11-04 20:22:45
来自无昵称**的评论:

必须给差评,送货速度太慢了,快递员电话还是空号,拿到手时,书已经破损,这体验我还能说啥,以后不再当当买书了,心好累。

2016-11-14 09:33:36
来自无昵称**的评论:

没看内容,但感觉很亏,只有157页,而且书里面的字体很大行距很大,就像给老年人看的。

2016-11-04 11:07:34
来自清风云**的评论:

新手是看不大懂的每看一节需要查阅很多基础知识

2016-11-06 18:35:29
来自匿名用**的评论:

尽管是搞活动买的,但是还是觉得买的很亏,内容很少,只是些例子

2017-06-09 15:17:29
来自楚云襄**的评论:

很好的一本书,讲的是python网络爬虫的。书比较薄,但是很基础,适合初级入门人员观看。

2016-11-19 15:34:38
来自匿名用**的评论:

书本有点薄,内容还没细看,应该还不错,开始爬虫之路吧

2017-07-09 18:19:50
来自kvyao**的评论:

内容差了一点,应该是新手写的书,面面俱到的说相当没说,书没有深度

2017-08-16 14:30:11
来自匿名用**的评论:

还没有看,最近对python有兴趣,看评论不错就入手了。

2017-08-12 09:51:58
来自匿名用**的评论:

本来应该是一本好书,可惜书中提及的示例网站却出了问题了,不仅一些路径变了,甚至一些文件访问不了!!!这意味着第一章给出的所谓到后面还能继续使用的第一个完整爬虫,到了后面势必出问题。刚拿到书就看了一章,示例中的路径用不了,只能尝试使用别的网站做实验。刚刚上到书中提及的网站代码托管的网站,看到里面有许多网友也在反馈部分文件无法访问的问题,但是好像并没有人在维护没有人解决问题的。无语...

2017-09-28 00:54:21
来自匿名用**的评论:

有点受不了的快递,5月31号早上买的,现在(6月6号15:59)到的,想联系快递员,给我留个12位的手机号,见鬼了

2017-06-06 16:03:01
来自梦想家g**的评论:

这本书好薄。。这本书还没看,希望是一本不错的书!

2016-12-19 12:17:44
来自f***r(**的评论:

还没有看,但是书比较薄,内容却很难,得把python学好

2017-01-18 13:36:22
来自gengjt**的评论:

趁双十一前买的,怕快递太慢,但还是耽误了,好在满二百减一百活动,还是比较超值的,太薄了

2016-11-15 10:03:40
来自匿名用**的评论:

书本身有层塑料薄膜包装,快递过程中比较耐摔。

2017-02-11 08:23:05
来自匿名用**的评论:

书薄薄的,感觉一天可以看完的样子。先把python装起来先

2017-03-21 22:01:01
来自无昵称**的评论:

书是塑料袋装的,快递就把书扔到地上等签收,书的封皮被地上的小石子扎得坑坑洼洼的,新书变旧书,好心疼!

2016-11-16 12:59:29
来自匿名用**的评论:

趁618活动买的 五折优惠很实惠 书很薄 内容还没看

2017-06-19 17:33:12
来自西红柿**的评论:

哈哈,默认好评的。对于这本书,需要有些Python 的语法基础,和网络基础。书有点薄

2016-12-09 13:02:16
来自i***n(**的评论:

一直想学怎么写爬虫,找不到好的教材。希望这本书能起到作用吧

2017-06-02 20:15:52
来自无昵称**的评论:

刚到货,还没看,看起来很不错的样子。不过书比较薄。

2016-12-16 17:02:52
来自匿名用**的评论:

适合初学者,但是需要一定的python基础

2017-06-30 12:26:54
来自无昵称**的评论:

这个爬虫比较火啊!对这个好奇就买了,希望今后多看看,有用的。今后得多看看,好好学习这个方向的知识!

2017-03-02 17:55:08
来自匿名用**的评论:

本书半年前买的,陆陆续续在看,写得总体不错~~不过前段时间开始书中的示例网站已经无法访问,读者已经没办法使用本书进行训练了~~而且书中没有提供作者的联系方式,也无法让作者对网站进行修复~~总体而言,本书当前已无法使用,慎买~~!

2017-06-01 10:30:00
登录后即可发表评论

免责声明

更多相关图书
在线咨询