搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。
《这就是搜索引擎:核心技术详解》的特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外,本书也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解,全书大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。
内容简介
前言
第1章 搜索引擎及其技术架构
1.1 搜索引擎为何重要
1.2 搜索引擎技术发展史
1.3 搜索引擎的3个目标
1.4 搜索引擎的3个核心问题
1.5 搜索引擎的技术架构
第2章 网络爬虫
2.1 通用爬虫框架
2.2 优秀爬虫的特性
2.3 爬虫质量的评价标准
2.4 抓取策略
2.5 网页更新策略
2.6 暗网抓取(Deep Web Crawling)
2.7 分布式爬虫
本章提要
本章参考文献
第3章 搜索引擎索引
3.1 索引基础
3.2 单词词典
3.3 倒排列表(Posting List)
3.4 建立索引
3.5 动态索引
3.6 索引更新策略
3.7 查询处理
3.8 多字段索引
3.9 短语查询
3.10 分布式索引(Parallel Indexing)
本章提要
本章参考文献
第4章 索引压缩
4.1 词典压缩
4.2 倒排列表压缩算法
4.3 文档编号重排序(DocID Reordering)
4.4 静态索引裁剪(Static Index Pruning)
本章提要
本章参考文献
第5章 检索模型与搜索排序
5.1 布尔模型(Boolean Model)
5.2 向量空间模型(Vector Space Model)
5.3 概率检索模型
5.4 语言模型方法
5.5 机器学习排序(Learning to Rank)
5.6 检索质量评价标准
本章提要
本章参考文献
第6章 链接分析
6.1 Web图
6.2 两个概念模型及算法之间的关系
6.3 PageRank算法
6.4 HITS算法(Hypertext Induced Topic Selection)
6.5 SALSA算法
6.6 主题敏感Page Rank(Topic Sensitive PageRank)
6.7 Hilltop算法
6.8 其他改进算法
本章提要
本章参考文献
第7章 云存储与云计算
7.1 云存储与云计算概述
7.2 Google文件系统(GFS)
7.3 Chubby锁服务
7.4 BigTable
7.5 Megastore系统
7.6 Map/Reduce云计算模型
7.7 咖啡因系统——Percolator
7.8 Pregel图计算模型
7.9 Dynamo云存储系统
7.10 PNUTS云存储系统
7.11 HayStack存储系统
本章提要
本章参考文献
第8章 网页反作弊
8.1 内容作弊
8.2 链接作弊
8.3 页面隐藏作弊
8.4 Web2.0作弊方法
8.5 反作弊技术的整体思路
8.6 通用链接反作弊方法
8.7 专用链接反作弊技术
8.8 识别内容作弊
8.9 反隐藏作弊
8.10 搜索引擎反作弊综合框架
本章提要
本章参考文献
第9章 用户查询意图分析
9.1 搜索行为及其意图
9.2 搜索日志挖掘
9.3 相关搜索
9.4 查询纠错
本章提要
本章参考文献
第10章 网页去重
10.1 通用去重算法框架
10.2 Shingling算法
10.3 I-Match算法
10.4 SimHash算法
10.5 SpotSig算法
本章提要
本章参考文献
第11章 搜索引擎缓存机制
11.1 搜索引擎缓存系统架构
11.2 缓存对象
11.3 缓存结构
11.4 缓存淘汰策略(Evict Policy)
11.5 缓存更新策略(Refresh Policy)
本章提要
本章参考文献
第12章 搜索引擎发展趋势
12.1 个性化搜索
12.2 社会化搜索
12.3 实时搜索
12.4 移动搜索
12.5 地理位置感知搜索
12.6 跨语言搜索
12.7 多媒体搜索
12.8 情境搜索
《这就是搜索引擎:核心技术详解》读者交流区

