为什么搜索引擎可以搜索到那么多东西?

商品流通企业2022-06-24  16

为什么搜索引擎可以搜索到那么多东西? 01

搜索引擎的使用被称为 网络爬虫 程序抓取网页上的所有链接。
由于互联网的特性,大部分网页都可以通过其他页面的链接来访问。
从有限数量的网页中,网络爬虫可以访问大多数网页。
这样搜索引擎就可以收集到大量的网页内容。

现在,人们把越来越多的内容放在互联网上。据估计,互联网上有数万亿个独立网页。
那么,如何从这些海量的内容中获取所需的信息呢?人们发明了互联网搜索引擎来解决这个问题。
我们知道,当用户在百度、谷歌或必应等搜索引擎中输入关键词时,会找到包含关键词的网页链接,并按照一定的顺序呈现给用户。
那么,搜索引擎如何帮助我们在网上搜索信息呢?

一般来说,搜索引擎的工作可以分为三个部分。
第一部分叫做信息捕捉。
搜索引擎的使用被称为 网络爬虫 程序抓取网页上的所有链接。
由于互联网的特性,大部分网页都可以通过其他页面的链接来访问。
理论上,从有限数量的网页中,网络爬虫可以访问绝大多数的网页。
想象一下,我们可以把互联网想象成一张巨大的蜘蛛网,其中交叉点就是网页,交叉点之间的蜘蛛丝就是链接。爬虫可以从一个路口出发,顺着蜘蛛丝到达任何路口。

找到网页后,搜索引擎将开始其工作的第二部分:建立索引。
简单来说,搜索引擎从网页中提取关键词,将页面信息甚至整个页面内容按照一定的规则存储在自己的数据库中。
这样做的目的是为了尽快找到信息。如果搜索引擎只是简单的不规则存储页面,那么每次搜索都会遍历所有保存的信息,这就失去了搜索引擎的意义。
例如,如果一个搜索引擎想要索引一个介绍漫画《西游记》的页面,那么 启蒙空 ;、 西游记 、 唐僧 、 吴承恩 诸如此类的词。一般会成为本页索引的一部分。
值得一提的是,由于中文的特殊性(英语以词为单位,词与词之间用空分隔,中文以词为单位,词与词之间没有明显的分隔),在提取关键词之前,一般需要对页面进行切分。

完成前两部分后,搜索引擎就可以为用户提供搜索服务了。
搜索引擎获取用户输入的关键词,搜索自己的数据库,将显示的搜索结果页面展现给用户。
比如,我们来搜索 启蒙空 ;,因为建立索引时漫画《西游记》的页面特征已经存储在数据库中,所以可以使用 启蒙空 ;索引,并将该页面的链接返回给用户。
除此之外,返回的结果还会包含其他结果,比如漫画《西游记》的页面,书籍《西游记》的页面。

转载请注明原文地址:https://juke.outofmemory.cn/read/450462.html

最新回复(0)