搜索引擎的基本原理

榴莲没熟怎么办2022-07-13 28

搜索引擎的工作原理包括网页搜索、信息预处理和建立索引三个过程。

细化分为:抓取-抓取-处理抓取信息-建立索引-呈现排名

一:爬行

爬取的目的:建立一个要爬取的列表

谷歌爬虫:ddos百度爬虫:蜘蛛

1。发现:

新网站

被动等待:设置Robots.txt文件，放在服务器上等待爬虫过来爬。(谷歌几周，百度一个月到几个月。)

主动爬虫:写带链接的软文，花钱上高质量高权重的网站，利用高权重的博客，在高质量的论坛发外链。

新内容

可以把首页放在首页，否则尽量放在顶栏(总结:尽量放在权重高的位置)

横幅图片不如幻灯片，幻灯片不如文字。(概要:文字优先，图片写alt属性)

2、爬虫分析:

查看:网站日志分析。站长的工具可以在日志文件中查看:查看抓取频率。太高的话，服务器会崩溃。

问题及解决方法:网站访问量突然为0

先上网站查一下有没有被处罚

分析日志爬虫并记录IP(蜘蛛，用户)

统计代码有问题

3。爬行策略:

深度优先:一楼栏目到最后(1-1000万页)

广度优先:同行专栏单独收集(100万页)

混合:混合使用两者(5000-1亿页)

4。爬虫抢障碍物:

txt文件设置不正确。服务器本身的问题(频繁出现动态IP，服务器不稳定)就是URL太长，搜索引擎爬虫懒得直接抓取。陷阱

二:抢

1。网页本身必须符合W3C标准

头信息:状态码:200(正常访问)，404(死链)，301(永久重定向)，302(小心临时重定向)，403(禁止访问)，5xx(数据库问题)。编码:建议使用utf-8。gb2312在国外打开是乱码。

2。TDK关键词:

标题:努力走到前面。我们希望爬虫在进入某个页面时能看到我们的主要内容。

长度:25个汉字足够写33篇汉字的文章。两个英文字符算作一个单词

位置:关键字位置在之前

次数:不要重复太多(栏目可以强调关键词，最重要的放在最前面)

可读性:考虑用户体验

独创性:蜘蛛喜欢新鲜的东西

关键词:首页5-7个，一级栏目5-6个，二级栏目4-5个，列表页3-4个，专题2-3个。说明:(栏目必须围绕关键词写)

作用:提高点击率

密度:3-8%

长度:80个汉字

原创:有利于包容

可读性:用户体验考虑事项

行动号召:活动和促销等页面

3。公共部分:

搜索引擎不会抓取重复的部分(爬虫更喜欢新鲜原创的东西，重复的内容不利于抓取)

4。导航:

一级导航，二级导航，左侧导航，SEO导航(标签)，面包屑导航(不要用JS实现)，

5。广告:

横幅图片不如幻灯片，幻灯片不如文字(总结:文字优先，图片写alt属性)。文字有利于爬虫抓取。

6。正文:

关键词:次数适当，密度3-8%适中，位置高(可通过金华站长工具找到)

lt；H1 gt；标签:唯一性，整个页面第一重要。包括关键字，关键字越多越好

lt；H2 gt；其他属性可以在中添加

lt;altgt;属性：只能用于lt;imggt;，意在告诉蜘蛛图片的解释 lt；alt gt属性:只能用于< img gt，意在告诉蜘蛛图片的解释

lt；title gt属性:在链接中添加描述性文字，可以为用户提供更清晰的含义。锚文本:(凡事讲究相关性)锚文本一定要有相关关键词，而且要面对面相关

III:处理抓取结果(预处理)

爬行后，爬虫将其压缩成数据包，返回给数据库

相关性:由于百度算法的上下文分析+语义分析，网站上不能出现无关内容，否则会丢弃搜索引擎的权威性:各种奖项，在线评价，申请百度客服增加信任度。

注:权威性不足的影响:对于同一篇文章，由于信任度的高低，有可能文章本身被转载发表了，而自己的却在别人的网站后面。
去重:一个链接不能有多个页面，同一个关键词不能指向不同的链接，不同的链接和同一个关键词不能出现在同一个页面，

四:建立索引

搜索引擎的索引是逆向建立的

主页网址76分

一级栏目网址80分

二级栏目网址96分

专题页面网址70分

产品网址68分

百度分词:从前到后，从后到前，统计，第三步。在处理捕获的结果时，爬虫将捕获的内容压缩成数据包，并将它们返回给数据库。这时，搜索引擎的索引数据库就建成了。当用户搜索一个词(长尾词或短尾词)时，搜索引擎会根据百度分词规则，首先显示搜索词与索引数据库完全一致的词。

原文链接来源:http://www.longseo.com/seojichu/600.html

转载请注明原文地址:https://juke.outofmemory.cn/read/712523.html

00 生成海报

搜索引擎的基本原理

普及

搜索引擎

启动修复失败错误代码2

把网页网址保存下载到桌面的中语言源码