搜索引擎如何建立索引

SEO影响力SEO影响力 in SEO 2022-01-23 1:22:21

最著名的搜索引擎,例如 Google 和 Bing,其搜索索引中有数万亿个页面。因此,在讨论排名算法之前,让我们更深入地研究用于构建和维护 Web 索引的机制。

搜索引擎 search engine

Google 提供的基本流程分解之后就是:

  1. URL
  2. 抓取
  3. 处理 & 渲染
  4. 索引

小提示: 这个过程专门适用于 Google,但对于其他网络搜索引擎(如 Bing)来说,可能非常相似。还有其他类型的搜索引擎,例如 A mazon,YouTube 和 Wikipedia,它们仅显示其内部的页面结果。

步骤 1. URL

一切都始于已知的 URL 列表。 Google 通过各种方法发现了这些,但是最常见的三种是:

通过外链

Google 已经有一个包含数万亿个网页的索引库。如果某人在这些页面中添加了一个链接指向了自己的网站,那么 Google 可以从那些页面中找到链接。

来自网站地图

站点地图列出了你网站上的所有重要页面。如果你将站点地图提交给 Google,则可以帮助他们更快地找到你的网站。

来自 URL 提交

Google 还允许通过 Google Search Console 提交单个 URL。

步骤 2. 抓取

抓取是一种称为蜘蛛的抓取程序(例如 Googlebot)访问并下载发现的页面的地方。

重要的是要注意,Google 并不总是按照发现页面的顺序对其进行抓取。

Google 会根据以下因素对要抓取的 UR L 进行排序,其中包括:

  • URL 的 PageRank
  • URL 多久更改一次
  • 是否是新的

这很重要,因为这意味着搜索引擎可能会在某些页面之前对其他页面进行抓取和索引。如果你的网站很大,搜索引擎可能需要一段时间才能完全抓取它。

步骤 3. 处理

Google 会在处理过程中从抓取的页面中提取关键信息。 Google 以外的人都不知道有关此过程的细节,但是我们认位重要部分是提取链接和存储内容并进行索引。

Google 必须渲染页面以对其进行完全处理,而 Google 会运行页面的代码以了解外观对用户的影响。

也就是说,在渲染之前和之后都会进行一些处理——如你在图中所看到的。

步骤 4. 索引

索引是将抓取页面中的信息添加到叫做搜索索引的大型数据库中。本质上,这是一个由数万亿个网页组成的数字图书馆,Google 的搜索结果都来自于此。

这是重要的一点。当你在搜索引擎中搜索时,你并不是直接匹配互联网上的结果。而是在搜索搜索引中进行匹配的。如果网页不在搜索索引中,则搜索引擎用户将找不到它。这就是为什么让你的网站在 Google 和 Bing 等主要搜索引擎中建立索引如此重要。

-- End --

相关推荐