搜索引擎工作方式之搜索信息抓取及处理

2019年7月1日11:53:05 7 80,716

通常,对于一个查询,含有可能相关的信息的网页多达数千个甚至数百万个。那么,搜索引擎如何确定在搜索结果中显示哪些内容呢?实际上,早在用户动手输入搜索内容之前,搜索之旅就已经开始了…。在用户搜索之前,网页抓取工具会从数千亿个网页中收集信息,然后在搜索引擎的搜索索引中进行整理。

搜索引擎基础知识

搜索引擎抓取流程是从以往所抓取内容的网址列表和由网站所有者提供的站点地图开始的。在访问这些网站时,抓取工具会使用网站上的链接来探索其他网页。该软件会特别关注新网站、对现有网站进行的更改以及无效链接。计算机程序会确定要抓取的网站、抓取频率以及要从每个网站中抓取的网页数量。

搜索引擎工作方式之搜索信息抓取及处理
搜索引擎基础知识

现在大多数搜索引擎都提供了站长工具,让网站所有者可以精确地控制搜索引擎抓取其网站:他们可以提供详细说明,告诉我们如何处理其网页;可以申请重新抓取;也可以使用名为robots.txt 的文件,选择完全不抓取。一般来说,搜索引擎为所有网站提供相同的工具,以确保用户尽可能获得最佳结果。

通过抓取查找信息

网络就像一个规模与日俱增的图书馆,虽然收藏的图书已有数十亿本之多,却没有中央档案管理系统。搜索引擎使用一种称为网页抓取工具的软件来发现供公众访问的网页。抓取工具会查看网页,并跟踪访问这些网页上的链接,就好像你在网上浏览内容一样。这类抓取工具会逐一访问各个链接,并将各网页的相关数据返回至搜索引擎的服务器。

搜索引擎工作方式之搜索信息抓取及处理
搜索引擎抓取信息

通过编入索引整理信息

当抓取工具找到一个网页时,搜索引擎的系统就会像浏览器一样呈现该网页的内容,并会记下关键信号(从关键字到网站新鲜度),然后会在搜索引擎的搜索索引中跟踪所有这些内容。

搜索引擎索引中包含数千亿个网页,大小远远超过1亿千兆字节。它就像图书尾部的索引一样 - 被搜索引擎编入索引的每个网页中出现的每个字词都在其中,且分别对应一个条目。在将某个网页编入索引时,搜索引擎会将它添加到与它包含的所有字词对应的条目中。

搜索引擎工作方式之搜索信息抓取及处理
搜索引擎编入索引

借助知识图谱,搜索引擎将继续超越关键字匹配,以更好地了解用户所关注的人、地点和事物。为此,搜索引擎不仅要整理有关网页的信息,还要整理其他类型的信息。如今,搜索引擎不仅可帮助用户搜索大型图书馆内数百万册图书中的内容,查找当地公交公司的线路和车次安排,还可帮助用户浏览政府、科研机构等公开来源的数据。

历史上的今天
七月
1
  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:7   其中:访客  7   博主  0

    • 马超金博客 马超金博客

      过来看看

      • 周松松博客 周松松博客

        搜索引擎的算法一直在变

        • 子午物联网 子午物联网

          现在的百度,摸不清,其他的吧,又意义不大

          • 欣兰 欣兰

            懂原理才能应对变化

            • wordpress建站吧 wordpress建站吧

              搜索引擎本身点技术难度似乎不高,估计谁都可以写,但要做成搜索引擎就没几家了

              • 鸟叔 鸟叔

                360搜索不抓我的站点,不知道什么原因

                • 叶忠文博客 叶忠文博客

                  这个评论的头像是随机抽取的吗