本书从实际的爬虫业务需求延伸到知识点和具体实现,并详细介绍了其中的原理。首先带领读者领略爬虫程序的构成和完整链条,学习自动化工具的应用场景和基本使用;接着介绍了增量爬取的分类和具体实现、基于Redis 的分布式爬虫实现和基于RabbitMQ 的分布式爬虫实现,通过阅读论文和源码剖析详细介绍了高准确率的网页正文自动化提取方法;然后通过源码调试了解到与Python 项目的部署和调度相关的知识,进而动手实践,编写了一款具备权限控制、Python 通用项目部署、定时调度、异常监控和钉钉机器人消息通知的爬虫项目管理平台;*后通过解读分布式调度平台的核心架构,帮助大家了解分布式架构中*为重要的节点通信、文件同步等知识。

本书适合爬虫工程师、爬虫技术爱好者和Python 开发者阅读,也适合爬虫团队管理者、高校教师和培训机构的讲师阅读。


作者

韦世东

资深爬虫工程师、2019 华为云·云享专家、掘金社区优秀作者、GitChat 认证作者、夜幕团队(Night Team)成员、《Python3 反爬虫原理与绕过实战》作者,对反爬虫和逆向有研究,精通爬虫架构设计和工程链路实践,搭建过日流量亿级的爬虫架构。


查看全部
目录

作者简介

内容简介

前言

第1章 爬虫程序的构成和完整链条

1.1 一个简单的爬虫程序

1.2 爬虫的完整链条

1.3 爬取下来的数据被用在什么地方

1.4 爬虫工程师常用的库

1.5 数据存储

1.6 小试牛刀——出版社新闻资讯爬虫

实践题

本章小结

第2章 自动化工具的使用

2.1 网页渲染工具

2.2 App自动化工具

实践题

本章小结

第3章 增量爬取的原理与实现

3.1 增量爬取的分类和实现原理

3.2 增量池的复杂度和效率

3.3 Redis的数据持久化

实践题

本章小结

第4章 分布式爬虫的设计与实现

4.1 分布式爬虫的原理和分类

4.2 分布式爬虫库Scrapy-Redis

4.3 基于Redis的分布式爬虫

4.4 基于RabbitMQ的分布式爬虫

实践题

本章小结

第5章 网页正文自动化提取方法

5.1 PythonReadability

5.2 基于文本及符号密度的网页正文提取方法

5.3 GeneralNewsExtractor

本章小结

第6章 Python项目打包部署与定时调度

6.1 如何判断项目是否需要部署

6.2 爬虫部署平台Scrapyd

6.3 Scrapyd源码深度剖析

6.4 项目打包与解包运行实战

6.5 定时功能

6.6 实战:开发Python项目管理平台Sailboat

6.7 分布式调度平台Crawlab核心架构解析

实践题

本章小结

查看全部
书评
查看更多
请您登录后发表评论 登录 | 注册
我的评分:
提交
0/400