How Search Works – google

How Search Works

3/1/13

Ask a question, get an answer. But what happens in between? Here you can follow the entire life of a search query, from the web, to crawling and indexing, to algorithmic ranking and serving, to fighting webspam.

2013-3-2, 14:54 | 

google

互联网搜索是一个永恒的话题,只要我们存在于这个数字化的世界,搜索需求就会实时存在。虽然我们每天都在用搜索,但对于它的工作原理,除非是专业人士,还很难懂得其中的奥秘。为此,Google 在 3 月 1 日上线了一张巨幅的图谱,讲述了 Google 搜索的工作原理。图谱简洁清晰,还伴有动画,如果对搜索感兴趣,那么可以好好看看这幅图。

Google 分三部分讲述整个过程,分别是抓取和索引、算法公式、去除垃圾网站。在第一步中,Google 先建立索引,应用爬虫通过超链抓取网站,一旦被爬虫抓取,页面几秒内就被索引。用户搜索时并不是检索实时更新的万维网,而是检索 Google 的缓存,只不过 Google 的缓存也在快节奏的更新,保证最新的索引内容。

googlesearch

第二步则是计算用户输入的关键词。先要识别拼写是否正确,给出备用方案,还要分析多义词等。搜索词的处理必须十分快速,然后从索引中抽取缓存数据,将结果呈现出来,当然,结果的呈现要经过十分重要的一步:计算 PageRank 值。通过调整 PageRank 值是搜索变现的一个基本方式。

最后,Google 还要和垃圾网站作斗争,剔除无用的搜索,提升搜索质量。

虽然要经过三步,但整个过程不到 1 秒就完成了。也就是这短短的不到 1 秒,造就了互联网的技术和商业神话,支撑起 Google 每年数百亿美元的收入。

看完图谱,在网页的最下方,计算了你打开此网页的时间内,已经响应了的搜索次数。我算了一下,平均下来大约是 3.8 万次每秒,每天约为 33 亿次,搜索已经深入互联网的骨髓,感兴趣的朋友赶紧去看看吧。

其实谷歌以前就做了很多类似的产品讲解图,包括 Knowledge Graph 、Search by Image、Instant Pages 等,点击这里可以查看聚合页面。

Screen Shot 2013-03-03 at 16.36.11 Screen Shot 2013-03-03 at 16.36.23 Screen Shot 2013-03-03 at 16.36.46

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s