搜索引擎的基本原理

榴莲没熟怎么办2022-07-13  25

搜索引擎的工作原理包括网页搜索、信息预处理和建立索引三个过程。

细化分为:抓取-抓取-处理抓取信息-建立索引-呈现排名

1.jpg

一:爬行

爬取的目的:建立一个要爬取的列表

谷歌爬虫:ddos百度爬虫:蜘蛛

1。发现:

新网站

被动等待:设置Robots.txt文件,放在服务器上等待爬虫过来爬。(谷歌几周,百度一个月到几个月。)

主动爬虫:写带链接的软文,花钱上高质量高权重的网站,利用高权重的博客,在高质量的论坛发外链。

新内容

可以把首页放在首页,否则尽量放在顶栏(总结:尽量放在权重高的位置)

横幅图片不如幻灯片,幻灯片不如文字。(概要:文字优先,图片写alt属性)

2、爬虫分析:

查看:网站日志分析。站长的工具可以在日志文件中查看:查看抓取频率。太高的话,服务器会崩溃。

问题及解决方法:网站访问量突然为0

先上网站查一下有没有被处罚

分析日志爬虫并记录IP(蜘蛛,用户)

统计代码有问题

3。爬行策略:

深度优先:一楼栏目到最后(1-1000万页)

广度优先:同行专栏单独收集(100万页)

混合:混合使用两者(5000-1亿页)

4。爬虫抢障碍物:

txt文件设置不正确。服务器本身的问题(频繁出现动态IP,服务器不稳定)就是URL太长,搜索引擎爬虫懒得直接抓取。陷阱

二:抢

1。网页本身必须符合W3C标准

头信息:状态码:200(正常访问),404(死链),301(永久重定向),302(小心临时重定向),403(禁止访问),5xx(数据库问题)。编码:建议使用utf-8。gb2312在国外打开是乱码。

2。TDK关键词:

标题:努力走到前面。我们希望爬虫在进入某个页面时能看到我们的主要内容。

长度:25个汉字足够写33篇汉字的文章。两个英文字符算作一个单词

位置:关键字位置在 之前

次数:不要重复太多(栏目可以强调关键词,最重要的放在最前面)

可读性:考虑用户体验

独创性:蜘蛛喜欢新鲜的东西

关键词:首页5-7个,一级栏目5-6个,二级栏目4-5个,列表页3-4个,专题2-3个。说明:(栏目必须围绕关键词写)

作用:提高点击率

密度:3-8%

长度:80个汉字

原创:有利于包容

可读性:用户体验考虑事项

行动号召:活动和促销等页面

3。公共部分:

搜索引擎不会抓取重复的部分(爬虫更喜欢新鲜原创的东西,重复的内容不利于抓取)

4。导航:

一级导航,二级导航,左侧导航,SEO导航(标签),面包屑导航(不要用JS实现),

5。广告:

横幅图片不如幻灯片,幻灯片不如文字(总结:文字优先,图片写alt属性)。文字有利于爬虫抓取。

6。正文:

关键词:次数适当,密度3-8%适中,位置高(可通过金华站长工具找到)

lt;H1 gt;标签:唯一性,整个页面第一重要。包括关键字,关键字越多越好

lt;H2 gt;其他属性可以在 中添加

lt;altgt;属性:只能用于lt;imggt;,意在告诉蜘蛛图片的解释 lt;alt gt属性:只能用于< img gt,意在告诉蜘蛛图片的解释

lt;title gt属性:在链接中添加描述性文字,可以为用户提供更清晰的含义。锚文本:(凡事讲究相关性)锚文本一定要有相关关键词,而且要面对面相关

III:处理抓取结果(预处理)

爬行后,爬虫将其压缩成数据包,返回给数据库

相关性:由于百度算法的上下文分析+语义分析,网站上不能出现无关内容,否则会丢弃搜索引擎的权威性:各种奖项,在线评价,申请百度客服增加信任度。

注:权威性不足的影响:对于同一篇文章,由于信任度的高低,有可能文章本身被转载发表了,而自己的却在别人的网站后面。
去重:一个链接不能有多个页面,同一个关键词不能指向不同的链接,不同的链接和同一个关键词不能出现在同一个页面,

四:建立索引

搜索引擎的索引是逆向建立的

主页网址76分

一级栏目网址80分

二级栏目网址96分

专题页面网址70分

产品网址68分

百度分词:从前到后,从后到前,统计,第三步。在处理捕获的结果时,爬虫将捕获的内容压缩成数据包,并将它们返回给数据库。这时,搜索引擎的索引数据库就建成了。当用户搜索一个词(长尾词或短尾词)时,搜索引擎会根据百度分词规则,首先显示搜索词与索引数据库完全一致的词。

原文链接来源:http://www.longseo.com/seojichu/600.html

转载请注明原文地址:https://juke.outofmemory.cn/read/712523.html

最新回复(0)